目前的文本转语音(TTS)技术
目前的文本转语音(TTS)技术通常专注于合成自然、清晰的语音,并且在语调、节奏和情感表达方面已经取得了显著进展。
然而,合成非言语发声还是一个相对较新的领域。虽然一些高级TTS系统可能在合成笑声方面取得了一些进展,但要完全准确地生成非语言发声仍然存在挑战。
但是微软最近提出的EmoCtrl-TTS是一款可控制情绪的零样本 TTS,可以为任何说话者生成带有非语言发声(例如笑声和哭声)的高度情绪化的语音。
项目简介
EmoCtrl-TTS利用表示情感和非语言声效的嵌入来调节基于流匹配的零样本文本转语音(TTS)技术。
为了生成高质量的情感语音,EmoCtrl-TTS使用伪标签法筛选出超过27,000小时的表达数据进行训练。
该技术目前有三个突破性的创新,分别是生成含有随时间变化的情感状态的语音、生成非言语性发声、情感语音翻译。
EmoCtrl-TTS利用情感嵌入和流匹配技术,能够捕捉语音提示中的情感变化状态,生成具有动态情感的语音。
这使得合成的语音更加自然和真实,能更好地表达说话者的情感变化。
demo:
输入:
Voicebox:
Elate:
Emoctrl:
从demo中可以很明显的听出EmoCtrl-TTS对于示例语音当中的情绪模仿的是最逼真的,而且对于这种情绪的变化的生成也是最相近的。
而且这种对于情绪的识别不受语言的限制,EmoCtrl-TTS还具备将一种语言的情感语音翻译成另一种语言的情感的能力,保留说话者的情感表达。
输入日语的的语音生成英语的语音,其中要表达的情感EmoCtrl-TTS几乎能够完美的呈现。
demo:
输入:
Voicebox:
Elate:
Emoctrl: