#音频理解

ltu - 音频和语音理解大模型与技术突破

LTULTU-AS音频理解语音理解大语言模型Github开源项目

LTU和LTU-AS是首个桥接音频和语音感知与理解的大型语言模型。这两个模型在多个封闭式音频和语音任务上达到最先进水平,同时能基于给定音频回答开放式问题。项目提供PyTorch实现、预训练模型和数据集,支持推理和微调。发布的OpenAQA和OpenASQA训练数据集为音频和语音理解研究提供了重要资源。

audio-flamingo - 新型音频语言模型实现音频理解和多轮对话

Audio Flamingo音频理解语言模型few-shot学习对话能力Github开源项目

Audio Flamingo是一种创新音频语言模型，具备音频理解、快速任务适应和多轮对话能力。通过优化训练技术、架构设计和数据策略，该模型在多项音频理解任务中创建新基准。项目开源基础模型和对话模型的训练及推理代码。模型权重可从GitHub和HuggingFace获取，仅供非商业用途。

相关文章

Article Cover

Lawrence Technological University: 培养未来创新者的顶尖理工学府

Article Cover

Audio Flamingo: 一个具有少样本学习和对话能力的创新音频语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号