热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#跨模态学习
DiffGesture: 利用扩散模型实现音频驱动的协同语音手势生成
2 个月前
DiffGesture是一种新型的基于扩散模型的框架,旨在有效捕捉跨模态的音频到手势关联,并保持时间连贯性,实现高保真度的音频驱动协同语音手势生成。该方法在CVPR 2023会议上发表,相比现有方法取得了显著的性能提升。
AI动画
语音驱动手势生成
扩散模型
跨模态学习
计算机视觉
Github
开源项目
2 个月前
LLM-Codec: 革命性的大语言模型驱动音频编解码器
2 个月前
LLM-Codec是一种创新的音频编解码器,它巧妙地将音频信息转换为大语言模型可理解的文本表示,实现了跨模态学习,为多模态大语言模型的发展开辟了新的可能性。
UniAudio 1.5
LLM-Codec
音频处理
跨模态学习
大语言模型
Github
开源项目
2 个月前
相关项目
LLM-Codec
LLM-Codec是一种创新音频编解码模型,将音频转换为文本空间,实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务,包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。
查看
DiffGesture
DiffGesture是一个基于扩散模型的框架,旨在生成与音频同步的协同语音手势。该框架通过扩散条件生成过程和音频-手势变换器捕捉跨模态关联,并使用手势稳定器和无分类器引导保持时间一致性。DiffGesture生成的手势具有良好的模式覆盖和音频相关性,在多个数据集上展现出优秀性能。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号