MARS5-TTS
CAMB.AI开发的MARS5是一款创新的语音模型,采用两阶段的AR-NAR流程,并具有独特的NAR组件。能处理复杂多样的场景,比如体育解说和动漫配音。MARS5只需5秒音频和少量文本,即可生成高质量语音。通过标点符号和大写字母,自然引导生成的语音韵律。支持浅克隆和深度克隆两种推理方式,深度克隆进一步提升语音质量。支持从GitHub或Hugging Face加载,提供详细配置选项以优化效果。