细语猛虎界面(实时翻译/转录)
细语猛虎界面是一个可用于控制细语猛虎应用程序的原生界面。
细语猛虎是一款免费开源工具,可以监听/观看您计算机上的任何音频流或游戏内图像,并通过Websockets或OSC将转录或翻译结果输出到网页浏览器(例如直播覆盖层或VRChat)。
<img src=doc/images/speech2text.png width=750 alt="语音转文字标签">
内容
功能
- Windows平台的原生界面(未来可能支持Linux)
- 对初学者和高级用户都易于使用
- 可访问细语猛虎的所有功能,包括:
- 音频流的转录/翻译
- 文本翻译
- 文本转语音
- 游戏内图像的识别和翻译
- 通过Websockets或OSC在网页浏览器或VRChat中显示结果
- 支持回环音频设备,无需额外工具即可捕获PC音频
- 保存和加载配置
- 预览所选音频设备是否正常工作
- 支持插件以提供额外功能(此处可查看插件列表)
- 实时字幕插件
- 多种文本转语音插件
- 情感预测插件
- 当前播放歌曲插件
- 字幕导出插件
- 基于检索的语音转换(RVC)插件
- 大型语言模型插件
- 等等...
- 自动更新到细语猛虎的最新版本。
下载
从发布页面下载最新版本。
<img src=doc/images/whispering-ui-dl.png width=305 alt="语音转文字标签">
教程
-
视频教程"细语猛虎 - 实时翻译和转录":
<img src=doc/images/whispering-tiger-yt.png width=480 alt="细语猛虎 - 实时翻译和转录视频教程">
安装
-
从[发布页面]下载最新版本后,将其解压到您选择的具有足够可用空间的驱动器上的文件夹中。
(不要直接从zip文件运行,不要从外部驱动器运行。)
-
安装CUDA以实现GPU加速(可选但推荐用于NVIDIA GPU)。
-
运行Whispering Tiger.exe文件。
-
让它下载细语猛虎的最新版本。(它会询问是否下载平台。)
-
下载完成后,您可以创建一个配置文件并开始使用细语猛虎应用程序。
- 首次启动时,它将开始下载人工智能模型,这可能需要一段时间,具体取决于您选择的模型大小。(目前不显示模型下载状态)
设置
-
通过输入名称并点击新建按钮来创建配置文件。
-
Websocket IP + 端口
可以保持默认值"127.0.0.1"和"5000"。- 这些只有在您想运行多个实例或让后端平台在单独的PC上运行时才有用。
- 如果您想运行多个实例,需要为每个实例更改端口。
-
选择您的音频输入和输出设备。 您可以通过对着麦克风说话并点击测试按钮来测试它们。
-
说话时应该看到音频输入条移动。点击测试按钮时应该听到测试音频并看到音频输出条移动。
-
有关特定音频设置的更多信息,请参阅音频配置(TTS到麦克风、游戏音频翻译等)。
(例如,当您想翻译在PC上播放的游戏、视频或流媒体的音频,而不是使用麦克风作为输入时。)
-
-
(可选)使用按键通话 点击字段并按下您想用于按键通话的按键
(分别按下每个键进行配置。运行配置文件时,使用按键通话时需要同时按下所有键)
- 要禁用语音自动检测而只使用按键通话,请将"语音音量级别"和"语音停顿检测"设置为0。
-
关注右下角的预估内存消耗。
这只是一个粗略估计,可能会有所变化,但它应该能让你了解所选的人工智能模型和选项需要多少(显存)内存。
-
根据你的硬件选择语音转文字和文本翻译的人工智能设备。
- CUDA(需要NVIDIA GPU)或CPU。
- CUDA会将人工智能加载到显存中,比CPU更快。
-
选择语音转文字大小和文本翻译大小。
- 尺寸越大,转录越准确但也越慢。
- 尺寸越大,使用的(显存)内存就越多。
- 注意: 首次启动应用程序时,会自动下载所选尺寸和精度的人工智能模型。
-
选择语音转文字精度和文本翻译精度
- 精度越高,准确性越高,使用的(显存)内存也越多。(但准确性差异几乎可以忽略不计)。
- 现代GPU对
float16
有更好的加速。 - CPU只支持
float32
、int16
或int8
精度。
注意:
- 你可以调整这些值,直到得到满意的结果。
- 如果某些功能不工作,请查看高级选项卡下的日志。检查是否有任何错误。
- 启用将日志写入文件以将日志保存到文件中。
插件设置
- 直接使用界面安装插件,或者..
- 手动安装插件。
- 从此处的插件列表中选择你想要的插件。
- 下载
*.py
文件并将其放置在插件文件夹中。 - 重启应用程序。
- 现在插件应该可以在插件选项卡中使用了。
注意:
大多数插件都有可以在插件选项卡的文本框中配置的特定设置。
另请参阅VoiceVox插件(日语TTS)的示例设置,了解如何设置VoiceVox插件。
特定用法设置
高级功能
额外帮助
如需额外帮助,你可以加入
截图
<img src=doc/images/profile-selection.png width=845 alt="配置文件选择"> <img src=doc/images/speech2text.png width=845 alt="语音转文字选项卡"> <img src=doc/images/text-translate.png width=845 alt="文本翻译选项卡"> <img src=doc/images/text2speech.png width=845 alt="文字转语音选项卡"> <img src=doc/images/ocr.png width=845 alt="光学字符识别(图像转文字)选项卡"> <img src=doc/images/plugins.png width=845 alt="插件选项卡"> <img src=doc/images/settings.png width=845 alt="高级设置选项卡"> <img src=doc/images/about.png width=845 alt="关于信息选项卡">