Echogarden

Echogarden是一个易于使用的语音工具集，包含多种语音处理工具。

安装、运行和更新都很简便
可在Windows（x64）、macOS（x64、ARM64）和Linux（x64、ARM64）上运行
使用TypeScript编写，适用于Node.js运行环境
无需Python、Docker或其他系统级依赖
不依赖关键的平台特定二进制文件。引擎要么通过WebAssembly移植，要么使用ONNX运行时导入，或者用纯JavaScript编写

功能

文本转语音使用VITS神经网络架构，以及其他15种离线和在线引擎，包括谷歌、微软、亚马逊、OpenAI和Elevenlabs提供的云服务
语音转文本使用OpenAI Whisper，以及其他几种引擎，包括谷歌、微软、亚马逊和OpenAI提供的云服务
语音与文本对齐使用动态时间规整（DTW，DTW-RA）的多个变体，支持多次（分层）处理，或通过Whisper识别模型的引导解码。支持100多种语言
语音到文本翻译，将Whisper支持的98种语言中的任何语音翻译成英语，并提供近乎词级的翻译文本时间戳
语音与翻译文本对齐尝试使用Whisper引擎将一种语言的口语音频与提供的英语翻译文本同步
语言检测识别给定音频或文本的语言。为音频提供Whisper或Silero引擎，为文本提供TinyLD或FastText
语音活动检测尝试识别音频中语音活跃或非活跃的片段。包括WebRTC VAD、Silero VAD、基于RNNoise的VAD和自定义自适应门限
语音去噪减弱口语音频中的背景噪音。包括RNNoise引擎
音源分离从任何音乐或背景环境中分离出语音。支持MDX-NET深度学习架构
所有识别、合成、对齐和翻译输出的词级时间戳
高级字幕生成，考虑句子和短语边界
对于VITS和eSpeak-NG合成引擎，包括提高TTS发音准确性的增强功能：添加文本规范化（例如惯用日期和货币发音）、同形异义词消歧（基于规则模型）和用户可自定义的发音词典
内部包系统，根据需要自动下载和安装语音、模型和其他资源