#实时语音

Ultravox: 突破性的实时语音多模态大语言模型

3 个月前

Ultravox 多模态LLM 语音识别实时语音 Llama 3 Github 开源项目

3 个月前

相关项目

ultravox

Ultravox 是一个创新的多模态大语言模型，能直接理解文本和语音，无需单独的语音识别步骤。基于 Llama 3 模型，它通过多模态投影器将音频转换为高维空间。Ultravox 的首字响应时间约为 200 毫秒，每秒可生成约 100 个 token，有效支持实时语音交互。目前支持音频输入和文本输出，未来计划增加语音输出功能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com