#跨模态学习

LLM-Codec - 跨模态音频处理新方案：LLM驱动音频编解码模型

Github开源项目大语言模型音频处理UniAudio 1.5LLM-Codec跨模态学习

LLM-Codec是一种创新音频编解码模型，将音频转换为文本空间，实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务，包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。

DiffGesture - 音频驱动协同语音手势生成的扩散模型框架

Github开源项目计算机视觉扩散模型AI动画跨模态学习语音驱动手势生成

DiffGesture是一个基于扩散模型的框架，旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联，并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性，在多个数据集上展现出优秀性能。

unixcoder-base - 微软开发的跨模态代码表示预训练模型

Github开源项目自然语言处理模型Huggingface模型预训练跨模态学习UniXcoder代码表示

UniXcoder是微软团队开发的跨模态预训练模型，利用代码注释和抽象语法树等多模态数据来构建代码表示。该模型基于RoBERTa架构，支持代码搜索、补全、函数名预测、API推荐和代码总结等任务。UniXcoder采用灵活的编码器-解码器结构，可在多种模式下应用，为代码分析和生成提供有力支持。

相关文章

Article Cover

LLM-Codec: 革命性的大语言模型驱动音频编解码器

Article Cover

DiffGesture: 利用扩散模型实现音频驱动的协同语音手势生成

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号