Parrots 项目介绍
简介
Parrots 是一个支持多语言的自动语音识别 (ASR) 和文本转语音 (TTS) 工具包。该工具包实现了语音识别和语音合成模型的一键调用,支持中文、英文和日文等多种语言。用户可以快速、方便地进行语音处理任务。
特色功能
- ASR(语音识别):使用
distilwhisper
模型实现,支持多种语言,包括中文和英文。 - TTS(语音合成):基于
GPT-SoVITS
训练的模型,支持包括中文、英文和日文在内的多种语言。
安装指南
用户可以通过以下方式安装 Parrots:
使用 pip 安装:
pip install torch # 或者使用 conda 安装 pytorch
pip install -r requirements.txt
pip install parrots
或者使用以下步骤:
pip install torch # 或者使用 conda 安装 pytorch
git clone https://github.com/shibing624/parrots.git
cd parrots
python setup.py install
使用示例
语音识别 (ASR)
用户可以通过以下示例代码进行语音识别:
import os
import sys
sys.path.append('..')
from parrots import SpeechRecognition
pwd_path = os.path.abspath(os.path.dirname(__file__))
if __name__ == '__main__':
m = SpeechRecognition()
r = m.recognize_speech_from_file(os.path.join(pwd_path, 'tushuguan.wav'))
print('[提示] 语音识别结果:', r)
输出示例如下:
{'text': '北京图书馆'}
文本转语音 (TTS)
以下为 TTS 使用示例代码:
import sys
sys.path.append('..')
import parrots
from parrots import TextToSpeech
parrots_path = parrots.__path__[0]
sys.path.append(parrots_path)
m = TextToSpeech(
speaker_model_path="shibing624/parrots-gpt-sovits-speaker-maimai",
speaker_name="MaiMai",
)
m.predict(
text="你好,欢迎来北京。welcome to the city.",
text_language="auto",
output_path="output_audio.wav"
)
输出:
Save audio to output_audio.wav
命令行模式
Parrots 项目支持通过命令行执行 ASR 和 TTS 任务。使用如下命令行操作:
pip install parrots -U
# asr 示例
parrots asr -h
parrots asr examples/tushuguan.wav
# tts 示例
parrots tts -h
parrots tts "你好,欢迎来北京。welcome to the city." output_audio.wav
在命令行中,asr
是语音识别命令,tts
是语音合成命令。更多使用方式可以通过 parrots asr -h
查看。
模型发布
该项目提供多种 ASR 和 TTS 模型,用户可以根据需求选择:
- ASR 模型:如 BELLE-2/Belle-distilwhisper-large-v2-zh
- TTS 模型:如 shibing624/parrots-gpt-sovits-speaker
参考文献
Parrots 项目的实现参考了一系列先进的研究成果和开源项目,包括但不限于:
- EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition
- PaddlePaddle/PaddleSpeech
- NVIDIA/NeMo
- coqui-ai/TTS
结束语
Parrots 工具包对于从事多语言语音处理的开发者和研究人员来说,提供了一个强大且易于使用的平台。无论是对于学术研究还是商业应用,它都是一个值得探索的选择。若您有需要,欢迎通过邮件或微信与项目维护者联系,一同参与社区的交流与贡献。