#非语言发声

微软最新TTS，连非语言发声都能克隆的TTS技术！高度情绪化的语音太逼真

2024年08月03日

2024年08月03日

相关项目

wav2vec2-large-nonverbalvocalization-classification

该模型利用Nonverbal Vocalization数据集，基于wav2vec2架构，进行非语言声带的分类。可识别诸如咬牙、咳嗽、打哈欠、哭泣等声音分类。Wav2vec2模型不仅提升了语音识别的准确性，还增强了在多语言及多声学场景中的应用。该模型支持简单的部署与系统集成，优化了语音交互的体验。

投诉举报邮箱: service@vectorlightyear.com