Echogarden
Echogarden是一个易于使用的语音工具集,包含多种语音处理工具。
- 安装、运行和更新都很简便
- 可在Windows(x64)、macOS(x64、ARM64)和Linux(x64、ARM64)上运行
- 使用TypeScript编写,适用于Node.js运行环境
- 无需Python、Docker或其他系统级依赖
- 不依赖关键的平台特定二进制文件。引擎要么通过WebAssembly移植,要么使用ONNX运行时导入,或者用纯JavaScript编写
功能
-
文本转语音使用VITS神经网络架构,以及其他15种离线和在线引擎,包括谷歌、微软、亚马逊、OpenAI和Elevenlabs提供的云服务
-
语音与文本对齐使用动态时间规整(DTW,DTW-RA)的多个变体,支持多次(分层)处理,或通过Whisper识别模型的引导解码。支持100多种语言
-
语音到文本翻译,将Whisper支持的98种语言中的任何语音翻译成英语,并提供近乎词级的翻译文本时间戳
-
语音与翻译文本对齐尝试使用Whisper引擎将一种语言的口语音频与提供的英语翻译文本同步
-
语音活动检测尝试识别音频中语音活跃或非活跃的片段。包括WebRTC VAD、Silero VAD、基于RNNoise的VAD和自定义自适应门限
-
语音去噪减弱口语音频中的背景噪音。包括RNNoise引擎
-
音源分离从任何音乐或背景环境中分离出语音。支持MDX-NET深度学习架构
-
所有识别、合成、对齐和翻译输出的词级时间戳
-
高级字幕生成,考虑句子和短语边界
-
对于VITS和eSpeak-NG合成引擎,包括提高TTS发音准确性的增强功能:添加文本规范化(例如惯用日期和货币发音)、同形异义词消歧(基于规则模型)和用户可自定义的发音词典
-
内部包系统,根据需要自动下载和安装语音、模型和其他资源
安装
确保已安装Node.js v18.16.0
或更高版本。
然后:
npm install echogarden -g
其他所需工具:
这两个工具在 Windows 和 Linux 上会作为内部包自动下载。
在 macOS 上,目前只有 ffmpeg
会自动下载。建议通过系统包管理器如 Homebrew (brew install sox
) 安装 sox
,以确保它在系统路径中可用。
更新到最新版本
npm update echogarden -g
使用工具集
工具可通过命令行界面访问,这使得强大的自定义成为可能,特别适用于长时间运行的批量操作。
更多图形化和交互式工具的开发正在计划中。文本转语音的浏览器扩展目前正在开发中(但尚未发布)。
如果你是开发者,你还可以将该包作为模块导入或通过本地 WebSocket 服务与之交互(目前处于实验阶段)。
文档
致谢
本项目整合并基于许多不同个人和公司的努力,同时也贡献了一些原创作品。
由 Rotem Dan (国际音标:/ˈʁɒːtem ˈdän/) 开发。
许可
GNU 通用公共许可证第3版
组件、模型和其他依赖项的许可证详情请参见此页面。