#音频驱动

GeneFace - 广义和高保真3D会说话的人脸合成

GeneFace高保真音频驱动3D人脸合成ICLR'23Github开源项目

该项目展示了一种通用且高保真的音频驱动3D说话面部生成方法。GeneFace 实现了更好的唇同步和面部表现，即使在非典型音频中也是如此。项目附带预训练模型和数据集，方便快速上手，并支持使用个人视频训练独特的GeneFace模型。新发布的GeneFace++ 提升了唇同步、视频质量和系统效率，具备实时推断和更快的深度3D重建功能。

EchoMimic - 音频驱动的逼真人像动画系统支持关键点编辑

EchoMimic音频驱动肖像动画AI模型关键点条件Github开源项目

EchoMimic是一个音频驱动的人像动画系统，通过编辑关键点来控制动画效果。系统支持英语和中文音频输入，可生成自然的口型、表情和头部动作。项目开源了推理代码和预训练模型，可用于生成高质量的说话头视频，适用于虚拟主播等应用场景。

dreamtalk - 音频驱动的表情丰富说话头像生成系统

DreamTalk生成说话人头像扩散模型音频驱动AI表情生成Github开源项目

DreamTalk是一个创新的音频驱动说话头像生成系统，采用扩散概率模型技术。该系统能生成高质量、表情丰富的说话头像视频，适应多种说话风格。DreamTalk在处理歌曲、多语言语音、噪声音频和非常规肖像等多样化输入时表现优异。通过结合扩散概率模型，DreamTalk实现了准确的唇形同步和生动的面部表情，为不同说话风格提供了灵活支持。

AniPortrait - 基于音频的高质量肖像动画生成框架

AniPortrait人像动画音频驱动图像合成人工智能Github开源项目

AniPortrait是一个基于音频和参考肖像图像生成高质量动画的开源框架。该项目支持自驱动、面部重演和音频驱动三种模式，可生成逼真的肖像动画。项目开源了预训练模型，并提供了详细的安装指南、推理命令和训练流程。AniPortrait为数字内容创作者提供了一种制作生动肖像动画的新方法，拓展了视觉内容创作的可能性。

EDTalk - 高效解耦的情感说话头像合成框架

EDTalk情感说话头合成人脸动画音频驱动视频驱动Github开源项目

EDTalk是一个创新的情感说话头像合成框架,实现了口型、头部姿势和情感表情的高效解耦。该框架通过三个轻量级模块将面部动态分解为独立的潜在空间,使用可学习的基向量定义特定动作。EDTalk采用正交基向量和高效训练策略确保各组件的独立性,并开发了音频到动作模块支持音频驱动的头像合成。这一技术在视频和音频输入下都能实现精确的情感说话头像生成。

Awesome-Talking-Head-Synthesis - 最新音频驱动和神经辐射场技术在数字人头像生成中的应用

Talking Head Synthesis3DNeRF音频驱动数据集Github开源项目

这个项目收集了生成对抗网络(GANs)和神经辐射场(NeRF)在说话头合成领域的相关研究。内容包括图像和音频驱动的说话头生成技术、数据集、研究综述和代表性工作。从2D到3D、单模态到多模态,项目全面展示了说话头生成的技术发展,为相关研究提供参考资料。

MuseTalk - 音频驱动的实时高质量唇形同步模型

MuseTalk实时唇形同步AI虚拟人音频驱动潜在空间修复Github开源项目

MuseTalk是一款实时高质量的音频驱动唇形同步模型,可在NVIDIA Tesla V100上以30fps+的速度运行。该模型能根据输入音频修改未见过的人脸,支持多种语言,并可调整面部区域中心点来影响生成效果。MuseTalk在HDTF数据集上训练,可与MuseV等虚拟人技术结合,为生成具全身动作和交互能力的虚拟人奠定基础。

相关文章

Article Cover

GeneFace: 新一代高保真度音频驱动3D人脸生成技术

Article Cover

EchoMimic: 革新性音频驱动肖像动画技术

Article Cover

AniPortrait：革命性的音频驱动人像动画合成技术

Article Cover

DreamTalk：当富有表现力的说话人头生成遇上扩散概率模型

Article Cover

Awesome-Talking-Head-Synthesis：探索人工智能驱动的会说话头像合成技术

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号