#跨模态学习

LLM-Codec - 跨模态音频处理新方案:LLM驱动音频编解码模型
Github开源项目大语言模型音频处理UniAudio 1.5LLM-Codec跨模态学习
LLM-Codec是一种创新音频编解码模型,将音频转换为文本空间,实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务,包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。
DiffGesture - 音频驱动协同语音手势生成的扩散模型框架
Github开源项目计算机视觉扩散模型AI动画跨模态学习语音驱动手势生成
DiffGesture是一个基于扩散模型的框架,旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联,并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性,在多个数据集上展现出优秀性能。
unixcoder-base - 微软开发的跨模态代码表示预训练模型
Github开源项目自然语言处理模型Huggingface模型预训练跨模态学习UniXcoder代码表示
UniXcoder是微软团队开发的跨模态预训练模型,利用代码注释和抽象语法树等多模态数据来构建代码表示。该模型基于RoBERTa架构,支持代码搜索、补全、函数名预测、API推荐和代码总结等任务。UniXcoder采用灵活的编码器-解码器结构,可在多种模式下应用,为代码分析和生成提供有力支持。