talk-llama-fast
基于 talk-llama https://github.com/ggerganov/whisper.cpp 俄语视频指南(俄语指南,英语字幕):https://youtu.be/0MEZ84uH4-E 英语演示视频,v0.1.3:https://www.youtube.com/watch?v=ORDfSG4ltD4 俄语视频,v0.1.0:https://youtu.be/ciyEsZpzbM8 TG频道:https://t.me/tensorbanana
我添加了:
- XTTSv2 支持
- UTF8 和俄语支持
- 加速:生成流式处理、XTTS 流式处理、激进的语音活动检测(VAD)
- 语音命令:谷歌、停止、重新生成、删除、重置、呼叫
- 用户说话时中断生成/文本转语音
- Wav2lip 流式处理
我使用了:
- whisper.cpp ggml-medium-q5_0.bin
- mistral-7b-instruct-v0.2.Q5_0.gguf
- 流式模式的XTTSv2服务器
- langchain google-serper
- wav2lip
新闻
- [2024.07.21] v0.2.0版本。添加了对
gemma-2
和mistral-nemo
的支持。增加了多GPU支持(--main-gpu 0
,--split-mode none
,--tensor-split 0.5,0.5
)。新增--instruct-preset gemma
指令预设。更多详情请查看发布说明。 - [2024.07.21] 更新上游llama.cpp/whisper至此提交
- [2024.06.26] v0.1.8版本。新增
--min_p 0.00
采样参数。建议俄语设置为0.10。 - [2024.05.25] 创建了具有多个角色的Telegram机器人:https://t.me/talkllama 并添加了捐赠页面:https://github.com/Mozer/donate
- [2024.05.17] 为不支持AVX2指令的旧CPU(如Intel i5-2500K)添加了
talk-llama-fast-v0.1.7_no_avx2.zip
版本。如果主版本无错误崩溃,请使用此版本。 - [2024.05.09] v0.1.7版本。新增
--push-to-talk
选项:按住"Alt"键说话(适用于无耳机的扬声器)。现在可以在bat文件中使用西里尔字母。请使用西里尔字母"OEM 866"编码保存,notepad++支持此编码。 - [2024.04.30] v0.1.6版本。重大修复:起始提示现在可以正常工作。
- [2024.04.25] v0.1.5版本。新增键盘输入和快捷键。
- [2024.04.17] v0.1.4版本。新增
--batch-size
(llama现在比之前少用0.6 GB显存!),--verbose
(显示速度)。起始提示现在不再限制长度。但为了保持速度,请保持在ctx_size以内。 - [2024.04.04] v0.1.0版本。新增流式wav2lip。延迟极低:从用户语音到视频仅需1.5秒!不得不重写sillyTavern-extras、wav2lip、xtts-api-server、tts(均已fork到我的github)。流式wav2lip可在SillyTavern中使用。设置指南和视频将在未来几天内发布。
- [2024.03.09] v0.0.4版本。新参数:
--stop-words
(llama的停止词列表,用分号;
分隔),--min-tokens
(最小输出词元数),--split-after
(在N个词元后分割第一句话用于xtts),--seqrep
(检测循环:最后300个符号中的20个符号),--xtts-intro
(在用户输入后立即为xtts添加随机的Umm/Well/...)。详情请参见0.0.4发布说明。 - [2024.02.28] v0.0.3版本
--multi-chars
参数启用每个角色不同的声音,每个声音将发送到xtts,因此请确保有相应的.wav文件(如alisa.wav)。与语音命令Call NAME
一起使用。俄语视频:https://youtu.be/JOoVdHZNCcE 或 https://t.me/tensorbanana/876 --translate
参数用于实时英俄翻译。俄语用户语音使用whisper翻译为英语。然后使用相同的mistral模型在相同上下文中将Llama输出翻译为俄语,无速度下降,无需额外显存。这个技巧让llama在俄语中有更强的推理能力,但会增加语法错误。由于以英语存储,而翻译在每个句子生成后立即从上下文中删除,因此上下文中可以容纳更多文本。--allow-newline
参数。默认情况下,如果没有此参数,llama会在遇到换行符时停止生成。- [2024.02.25] 我添加了
--vad-start-thold
参数用于调整语音检测停止(默认值:0.000270;0表示关闭)。VAD检查当前噪音水平,如果声音很大,xtts和llama会停止。如果您在嘈杂的房间里,请调高此值,同时检查--print-energy
。 - [2024.02.22] 首次公开发布
注意事项
- llama.cpp的上下文切换默认工作良好。我使用2048上下文并测试了长达10000个标记的对话 - 模型仍然正常,没有严重的循环或重大问题。Llama记住了开始提示和最后2048个上下文中的所有内容,但中间的内容都丢失了。不会额外使用显存,你可以进行几乎无限长的对话而不会出现速度下降。
- 默认设置针对极低延迟进行了调整。如果llama打断你:将
--vad-last-ms
设置为500而不是200毫秒。如果你不喜欢xtts第一句话后的小停顿,将--split-after
设置为0而不是5 - 这将关闭第一句话的分割,但第一句话的发音会稍慢一些。 - wav2lip是在小视频上训练的 - 推荐:300x400分辨率,25帧每秒,1分钟长。大分辨率视频可能导致显存不足错误。
- wav2lip不适用于动漫,嘴唇看起来像人类,而且有些面部无法检测到。
- 如果wav2lip经常在音频正常播放时跳过视频的第二部分及以后,在xtts-wav2lip.bat中尝试将
--wav-chunk-sizes
改为20,40,100,200,300,400,9999
甚至100,200,300,400,9999
以减少wav分割的激进性。你还可以在talk-llama-wav2lip.bat中调整--sleep-before-xtts 1000
,这是llama在发送每个xtts请求后的睡眠时间(毫秒)。 - 在xtts_wav2lip.bat中,不要将
--extras-url
设置为http://localhost:5100/
,而应设置为http://127.0.0.1:5100/
。在我的情况下,localhost选项慢了2秒,不知道为什么。 - 如果你使用蓝牙耳机,音频滞后于视频,你可以调整这个延迟:在
SillyTavern-extras\modules\wav2lip\server_wav2lip.py
的play_video_with_audio函数中,第367行设置sync_audio_delta_bytes = 5000
。 - wav2lip视频在与主机相同的设备上播放。目前无法在远程服务器(如Google Colab)上运行。目前也不支持移动手机。
- wav2lip可以与原始SillyTavern一起使用(仅xtts+wav2lip,无语音转文本,无语音中断)。不需要额外扩展,只需按照安装过程进行操作。
- 显存使用情况:mistral-7B-q5_0 + whisper-medium-q5_0.bin:7.5 GB,xtts:2.7 GB,wav2lip:0.8 GB = 总共11.0 GB。如果你只有8 GB:使用更小的llama量化版本!尝试对xtts使用--lowvram,甚至在CPU而不是GPU上启动xtts(
-d=cpu
但速度较慢)。尝试关闭xtts的流式传输:在xtts_wav2lip.bat中将流式块大小设置为单个数字(--wav-chunk-sizes 9999)。这会更慢,但对多个小请求的开销更少。 - 使用扬声器(非耳机):
- 你可以关闭噪音对机器人语音的中断
--vad_start_thold 0
。 - 可选:有一个"唤醒"命令
--wake-command "Anna,"
(名字后必须有逗号)。现在,只有以"Anna"名字开头的短语才会以你的身份进入聊天。这在使用扬声器或在嘈杂房间时会有部分帮助。
语言
Whisper STT 支持的语言:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。
XTTSv2 支持的语言:英语 (en)、西班牙语 (es)、法语 (fr)、德语 (de)、意大利语 (it)、葡萄牙语 (pt)、波兰语 (pl)、土耳其语 (tr)、俄语 (ru)、荷兰语 (nl)、捷克语 (cs)、阿拉伯语 (ar)、中文 (zh-cn)、日语 (ja)、匈牙利语 (hu)、韩语 (ko)、印地语 (hi)。
Mistral 官方支持的语言:英语、法语、意大利语、德语、西班牙语。但它也可以使用一些其他语言,只是不太流利(例如,俄语虽然没有得到官方支持,但实际上可以使用)。
系统要求
- Windows 10/11 64位
- Python、CUDA
- 16 GB 内存
- 推荐:12 GB 显存的NVIDIA显卡。最低要求:6 GB 显存的NVIDIA显卡。对于6GB或8GB显存的设备,请参考优化方法
- 对于AMD、macOS、Linux和Android设备,首先需要编译所有内容。我不确定是否能正常运行。
- Android版本正在开发中。
安装
适用于支持CUDA的Windows 10/11 x64系统
- 检查是否安装了Cuda Toolkit 11.x。如果没有,请安装:https://developer.nvidia.com/cuda-11-8-0-download-archive
- 下载最新的发布版压缩包。解压其内容。
- 将whisper medium模型下载到talk-llama.exe所在文件夹:英语版或俄语版(也可以选择large-v3-q4_0.bin,虽然体积更大但对俄语效果更好)。如果显存不足,可以尝试small-q5版本。对于英语,可以尝试distilled medium,它比普通版少用100MB显存。
- 将LLM模型下载到同一文件夹:mistral-7b-instruct-v0.2.Q5_0或适用于俄语的Vikhr-7B-0.4。如果显存不足,可以尝试q4_K_S或q3版本。
- 现在让我们安装我修改过的sillyTavern-extras、wav2lip、xtts-api-server和tts(都来自我的GitHub)。注意:xtts-api-server与SillyTavern-Extras存在冲突(xtts deepspeed需要torch 2.1,但extras中的某个包(torchvision 0.17.2)需要torch 2.2)。之前我能在3.11版本中同时运行它们,但用户在不使用conda的情况下安装xtts-api-server和SillyTavern-Extras时报告了几个问题。因此,我们现在将使用两个不同的conda环境安装所有内容,每个环境使用不同的torch版本(每个conda环境约7GB,我知道这很大)。安装分为两部分:xtts和SillyTavern-Extras。如果你知道如何一步步在单个conda环境中安装所有内容,欢迎提交PR。 安装miniconda。安装时请确保勾选"Add Miniconda3 to my PATH environment variable",这很重要。 打开你解压talk-llama-fast-v0.1.3.zip的\xtts\文件夹。在该文件夹中打开cmd,逐行运行以下命令:
conda create -n xtts
conda activate xtts
conda install python=3.11
conda install git
pip install git+https://github.com/Mozer/xtts-api-server pydub
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
pip install git+https://github.com/Mozer/tts
conda deactivate
- 如果xtts-api-server安装出现错误,请查看相关手册(非我的xtts版本,他们安装的是原版xtts):xtts-api-server或另一个手册(对我无效)来自sillytavern,或者这个stackoverflow TTS安装手册,但它使用了一些不同的版本。 我记得我第一次安装xtts-api-server时,它要求安装完整版的visual-cpp-build-tools。微软的默认下载页面对我不起作用,所以我不得不在其他地方搜索并找到它。VS_BuildTools.exe截图1,截图2。或者可能是VC_redist.x86.exe。
- 在当前目录下,为extras创建第二个conda环境
conda create -n extras
conda activate extras
conda install python=3.11
conda install git
git clone https://github.com/Mozer/SillyTavern-Extras
cd SillyTavern-extras
pip install -r requirements.txt
cd modules
git clone https://github.com/Mozer/wav2lip
cd wav2lip
pip install -r requirements.txt
conda deactivate
- 注意:\wav2lip\被安装在\SillyTavern-extras\modules\文件夹内。这一点很重要。
- 编辑xtts_wav2lip.bat,将
--output
从c:\DATA\LLM\SillyTavern-Extras\tts_out\改为你的\SillyTavern-Extras\tts_out\实际路径。别忘了这里的结尾斜杠。 - 可选:如果你只有6或8GB显存,在talk-llama-wav2lip.bat中找到并更改为
-ngl 0
。这会将mistral从GPU移至CPU+RAM。 - 可选:编辑talk-llama-wav2lip.bat或talk-llama-wav2lip-ru.bat,确保其中包含你下载的正确LLM和whisper模型名称。(完整参数说明在下方)。
- 下载ffmpeg完整版,将其添加到PATH环境变量中(如何操作:https://phoenixnap.com/kb/ffmpeg-windows)。然后从https://github.com/cisco/openh264/releases下载所需版本的h264编解码器.dll文件,并将其放入/system32或/ffmpeg/bin目录。在我的Windows 11系统中,使用的是openh264-1.8.0-win64.dll。没有这个dll文件Wav2lip也能工作,但会打印一个错误。
运行
- 在 /SillyTavern-extras/ 文件夹中双击
silly_extras.bat
。等待其下载 wav2lip 检查点并为新视频进行人脸检测(如果需要)。 - 在 /xtts/ 文件夹中双击
xtts_wav2lip.bat
以启动带有 wav2lip 视频的 xtts 服务器。或者运行 xtts_streaming_audio.bat 以启动不带视频的纯音频 xtts 服务器。注意:首次运行时,xtts 将从 GitHub 下载 DeepSpeed。如果 DeepSpeed 下载失败(出现"Warning: Retrying (Retry... ReadTimeoutError...)"),请开启 VPN 下载 DeepSpeed(27MB)和 xtts 检查点(1.8GB),之后可以关闭 VPN。Xtts 检查点可以不用 VPN 下载。但如果中断下载,检查点将会损坏 - 你必须手动删除 \xtts_models\ 目录并重新启动 xtts。 - 双击
talk-llama-wav2lip.bat
或talk-llama-wav2lip-ru.bat
或 talk-llama-just-audio.bat。不要运行 exe 文件,只运行 bat 文件。注意:如果你的 .bat 文件中包含西里尔字母(俄语),请将其保存为西里尔文 "OEM 866" 编码(notepad++ 支持此编码)。 - 开始说话。
针对 6GB 和 8GB 显存的优化
- 使用 CPU 而不是 GPU,这会稍微慢一些(5-6 秒):在 talk-llama-wav2lip.bat 中找到并将 ngl 改为
-ngl 0
(mistral 有 33 层,尝试 0 到 33 之间的值以找到最佳速度) - 为 llama 设置较小的上下文:
--ctx_size 512
- 在 xtts_wav2lip.bat 中设置
--lowvram
,这将在每次 xtts 请求后将 xtts 模型从 GPU 移到 RAM(但会变慢) - 在 xtts_wav2lip.bat 中设置
--wav-chunk-sizes=9999
,这会稍微慢一些,但会减少 wav2lip 请求次数 - 尝试使用更小的 whisper 模型,例如 small 或 english distilled medium
可选项
- 将新的 xtts 语音放入
\xtts\speakers\
。我建议使用 16 位单声道、22050Hz、10 秒长的无噪音和音乐的 wav 文件。使用 Audacity 进行编辑。 - 将新视频放入
\SillyTavern-extras\modules\wav2lip\input\
。我建议使用 300x400 分辨率、25 帧/秒、1 分钟长的视频,不要放高分辨率视频,它们会占用大量显存。每个文件夹放一个视频。文件夹名称应与所需的 xtts 语音名称和 talk-llama-wav2lip.bat 中的角色名称相同。例如,对于名为 Anna 的角色,使用 Anna.wav 和 \Anna\youtube_ann_300x400.mp4。使用--multi-chars
参数,talk-llama 将把新角色的名称传递给 xtts 和 wav2lip,即使这个角色没有在 bat 文件或开始提示中定义。如果 xtts 找不到该语音,它将使用默认语音。如果 wav2lip 找不到该视频,它将使用默认视频。 - 将角色描述和一些回复放入 assistant.txt。
- 为你的角色、.wav 文件和视频文件夹使用完全相同的名称。你也可以制作音频/视频文件的副本(例如 Kurt Cobain 和 Kurt)。现在你可以用两种方式称呼他。
- 对于 XTTS 中更好的俄语支持,请查看我的微调版本:https://huggingface.co/Ftfyhh/xttsv2_banana 但它不适用于流式传输(在短回复时会产生幻觉)。请在 silly tavern 中与默认 xtts 一起使用。
可选项,更好的 xtts 逗号处理 - 仅适用于不带 wav2lip 视频的 xtts 音频
语音效果更好,但第一句话会稍慢。Xtts 不会按逗号 ',' 分割句子:
c:\Users[USERNAME]\miniconda3\Lib\site-packages\stream2sentence\stream2sentence.py
第 191 行,将
sentence_delimiters = '.?!;:,\n…)]}。'
替换为
sentence_delimiters = '.?!;:\n…)]}。'
可选项,Google 搜索插件
- 从我的仓库下载 search_server.py
- 安装 langchain:
pip install langchain
- 在 https://serper.dev/api-key 注册,这是免费且快速的,它会给你 2500 次免费搜索。获取 API 密钥,将其粘贴到 search_server.py 的第 13 行
os.environ["SERPER_API_KEY"] = "your_key"
- 双击 search_server.py 启动搜索服务器。现在你可以使用类似这样的语音命令:"Please google who is Barack Obama" 或 "Пожалуйста погугли погоду в Москве"。
构建,可选
- 适用于NVIDIA和Windows系统。其他系统 - 请自行尝试。
- 下载 https://www.libsdl.org/release/SDL2-devel-2.28.5-VC.zip 并解压到 /whisper.cpp/SDL2/ 文件夹
- 使用vcpkg安装libcurl:
git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
./bootstrap-vcpkg.sh
./vcpkg integrate install
vcpkg install curl[tool]
- 将下面的路径
c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake
修改为您安装vcpkg的文件夹。然后进行构建。
git clone https://github.com/Mozer/talk-llama-fast
cd talk-llama-fast
set SDL2_DIR=SDL2\cmake
cmake.exe -DWHISPER_SDL2=ON -DWHISPER_CUBLAS=0 -DGGML_CUDA=1 -DCMAKE_TOOLCHAIN_FILE="c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake" -B build -DCMAKE_BUILD_PARALLEL_LEVEL=4
cmake.exe --build build --config release --target clean
del build\bin\Release\talk-llama.exe & cmake.exe --build build --config release --parallel 4
对于不支持AVX2的旧CPU:cmake.exe -DWHISPER_NO_AVX2=1 -DWHISPER_SDL2=ON -DWHISPER_CUBLAS=0 -DGGML_CUDA=1 -DCMAKE_TOOLCHAIN_FILE="c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake" -B build -DCMAKE_BUILD_PARALLEL_LEVEL=4
然后执行相同的最后两行
编译可能需要30多分钟。
talk-llama.exe 参数
-h, --help [默认] 显示此帮助信息并退出
-t N, --threads N [4 ] 计算时使用的线程数
-vms N, --voice-ms N [10000 ] 语音持续时间(毫秒)
-c ID, --capture ID [-1 ] 捕获设备ID
-mt N, --max-tokens N [32 ] 每个音频块的最大标记数
-ac N, --audio-ctx N [0 ] 音频上下文大小(0 - 全部)
-ngl N, --n-gpu-layers N [999 ] 存储在VRAM中的层数
-vth N, --vad-thold N [0.60 ] 语音平均活动检测阈值
-vths N, --vad-start-thold N [0.000270] VAD停止TTS的最小级别,0:关闭,0.000270:默认
-vlm N, --vad-last-ms N [0 ] 语音后的最小静音时间(毫秒)
-fth N, --freq-thold N [100.00 ] 高通频率截止
-su, --speed-up [false ] 音频加速2倍(不工作)
-tr, --translate [false ] 将源语言翻译成英语
-ps, --print-special [false ] 打印特殊标记
-pe, --print-energy [false ] 打印声音能量(用于调试)
--debug [false ] 打印调试信息
-vp, --verbose-prompt [false ] 在开始时打印提示
--verbose [false ] 打印速度
-ng, --no-gpu [false ] 禁用GPU
-p NAME, --person NAME [Georgi ] 人名(用于提示选择)
-bn NAME, --bot-name NAME [LLaMA ] 机器人名称(用于显示)
-w TEXT, --wake-command T [ ] 要监听的唤醒命令
-ho TEXT, --heard-ok TEXT [ ] 生成回复前TTS说的话
-l LANG, --language LANG [en ] 口语语言
-mw FILE, --model-whisper [models/ggml-base.en.bin] Whisper模型文件
-ml FILE, --model-llama [models/ggml-llama-7B.bin] LLaMA模型文件
-s FILE, --speak TEXT [./examples/talk-llama/speak] TTS命令
--prompt-file FNAME [ ] 包含自定义开始对话提示的文件
--instruct-preset TEXT [ ] 使用的指令预设(不带.json)
--session FNAME 用于缓存模型状态的文件(可能很大!)(默认:无)
-f FNAME, --file FNAME [ ] 文本输出文件名
--ctx_size N [2048 ] 提示上下文的大小
-b N, --batch-size N [64 ] 输入批次大小
-n N, --n_predict N [64 ] 预测的最大标记数
--temp N [0.90 ] 温度
--top_k N [40.00 ] top_k
--top_p N [1.00 ] top_p
--min_p N [0.00 ] min_p
--repeat_penalty N [1.10 ] 重复惩罚
--repeat_last_n N [256 ] 重复最后N个
--main-gpu N [0 ] 主GPU ID,从0开始
--split-mode NAME [none ] GPU分割模式:'none'或'layer'
--tensor-split NAME [(null) ] 张量分割,浮点数列表:0.5,0.5
--xtts-voice NAME [emma_1 ] XTTS语音(不带.wav)
--xtts-url TEXT [http://localhost:8020/] XTTS/Silero服务器URL,带尾部斜杠
--xtts-control-path FNAME [c:\DATA\LLM\xtts\xtts_play_allowed.txt] 不再使用
--xtts-intro [false ] XTTS即时短随机介绍,如"嗯..."
--sleep-before-xtts [0 ] LLaMA推理前的休眠时间(毫秒)
--google-url TEXT [http://localhost:8003/] Langchain Google-Serper服务器URL,带/
--allow-newline [false ] 允许LLaMA输出中的换行
--multi-chars [false ] XTTS将使用与LLaMA输出相同的WAV名称
--push-to-talk [false ] 按住Alt键说话
--seqrep [false ] 序列重复惩罚,在300个中搜索最后20个
--split-after N [0 ] 在前N个标记后分割用于TTS
--min-tokens N [0 ] 输出的最小新标记数
--stop-words TEXT [ ] LLaMA停止词:用;分隔
语音命令:
完整的命令列表及变体可在talk-llama.cpp
中找到,搜索user_command
。
- 停止(остановись,Ctrl+空格键)
- 重新生成(переделай,Ctrl+右箭头)- 将重新生成llama的回答
- 删除(удали,Ctrl+Delete键)- 将删除用户问题和llama的回答
- 删除3条消息(удали 3 сообщениия)
- 重置(удали все,Ctrl+R)- 将删除除初始提示外的所有上下文
- 搜索某事(погугли что-то)
- 呼叫某人(позови Алису)
已知问题
- 如果遇到缺失cuda .dll错误,请参阅此问题
- 如果Whisper无法听到你的声音,请参阅此问题
- 未实现Rope上下文。请使用上下文偏移(默认启用)。
- 有时Whisper会产生幻听,需要将幻听内容添加到停用词中。请查看
talk-llama.cpp
中的misheard text
。 - 不要在.bat文件的字符或路径中使用西里尔字母(русские),由于编码问题可能无法正常工作。如果需要在talk-llama-fast.exe中使用西里尔字母,请从.bat文件复制文本并粘贴到
cmd
中。 - 首次运行时,wav2lip将对新添加的视频进行人脸检测。这将花费约30-60秒,但仅发生一次,之后会保存到缓存中。人脸检测存在一个会导致整体速度变慢的bug(内存泄漏)。人脸检测完成后,需要重启Silly Tavern Extras。
- 有时wav2lip视频窗口会消失,但音频仍在正常播放。如果视频窗口没有自动恢复,请重启Silly Tavern Extras。
- 如果重启xtts,你需要重启silly-tavern-extras。否则,wav2lip会开始播放已创建视频的错误片段。
- 有时快速输入时,消息的第一个字母可能不会显示。
许可证
- talk-llama-fast - MIT许可证 - 可用于商业用途
- whisper.cpp - MIT许可证 - 可用于商业用途
- whisper - MIT许可证 - 可用于商业用途
- TTS(xtts) - Mozilla公共许可证2.0 - 可用于商业用途
- xtts-api-server - MIT许可证 - 可用于商业用途
- Silly Extras - GNU通用公共许可证v3.0 - 可用于商业用途
- Mistral 7B - Apache 2.0许可证 - 可用于商业用途
- Wav2Lip - 非商业用途 - 如需商业用途请直接联系synclabs.so
联系方式
Reddit:https://www.reddit.com/user/tensorbanana2 电报:https://t.me/tensorbanana 捐赠:https://github.com/Mozer/donate