#跨模态学习
相关项目
LLM-Codec
LLM-Codec是一种创新音频编解码模型,将音频转换为文本空间,实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务,包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。
DiffGesture
DiffGesture是一个基于扩散模型的框架,旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联,并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性,在多个数据集上展现出优秀性能。
unixcoder-base
UniXcoder是微软团队开发的跨模态预训练模型,利用代码注释和抽象语法树等多模态数据来构建代码表示。该模型基于RoBERTa架构,支持代码搜索、补全、函数名预测、API推荐和代码总结等任务。UniXcoder采用灵活的编码器-解码器结构,可在多种模式下应用,为代码分析和生成提供有力支持。