#跨模态学习

DiffGesture: 利用扩散模型实现音频驱动的协同语音手势生成

3 个月前

3 个月前

3 个月前

3 个月前

相关项目

LLM-Codec

LLM-Codec是一种创新音频编解码模型，将音频转换为文本空间，实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务，包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。

DiffGesture

DiffGesture是一个基于扩散模型的框架，旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联，并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性，在多个数据集上展现出优秀性能。

unixcoder-base

UniXcoder是微软团队开发的跨模态预训练模型，利用代码注释和抽象语法树等多模态数据来构建代码表示。该模型基于RoBERTa架构，支持代码搜索、补全、函数名预测、API推荐和代码总结等任务。UniXcoder采用灵活的编码器-解码器结构，可在多种模式下应用，为代码分析和生成提供有力支持。

投诉举报邮箱: service@vectorlightyear.com