Athena简介
Athena是一个基于端到端模型的开源语音处理引擎,旨在赋能语音处理领域的工业应用和学术研究。它支持多种语音处理任务,包括自动语音识别(ASR)、语音合成(TTS)、声音活动检测(VAD)、关键词检测(KWS)等。
Athena的主要特点包括:
- 基于混合注意力/CTC的端到端和流式ASR
- 支持FastSpeech/FastSpeech2/Transformer等TTS模型
- 语音活动检测(VAD)
- 端到端和流式关键词检测(KWS)
- ASR无监督预训练
- 多GPU分布式训练
- C++实现的WFST解码
- 支持TensorFlow C++部署
快速入门
- 安装Athena:
pip install tensorflow-gpu==2.3.0
pip install -r requirements.txt
python setup.py bdist_wheel sdist
python -m pip install --ignore-installed dist/athena-2.0*.whl
- 运行Demo:
cd athena
source tools/env.sh
# ASR测试
python athena/run_demo.py --inference_type asr --saved_model_dir examples/asr/aishell/models/freeze_prefix_beam-20220620 --wav_list test.lst
# TTS测试
python athena/run_demo.py --inference_type tts --text_csv examples/tts/data_baker/test/test.csv --saved_model_dir athena-model-zoo/tts/data_baker/saved_model
学习资源
- Athena GitHub仓库 - 源码和文档
- ASR示例 - ASR任务的示例代码
- TTS示例 - TTS任务的示例代码
- VAD示例 - VAD任务的示例代码
- KWS示例 - KWS任务的示例代码
- C++解码器 - C++实现的解码器
- 服务器部署 - 服务器部署相关代码
模型与论文
Athena支持多种语音处理模型,主要包括:
- Transformer (ASR)
- Conformer (ASR)
- Transformer-U2 (ASR)
- Conformer-U2 (ASR)
- FastSpeech (TTS)
- FastSpeech2 (TTS)
- Tacotron2 (TTS)
- MarbleNet (VAD)
这些模型的详细信息和相关论文可以在Athena仓库的README中找到。
预训练模型
Athena提供了一些预训练模型,可以在Athena-model-zoo中下载使用。
通过以上资源,相信大家可以快速上手Athena,开始自己的语音处理之旅。如果在使用过程中遇到问题,可以在GitHub上提issue或加入Athena的讨论群寻求帮助。祝大家使用愉快!