Logo

#音频驱动

Awesome-Talking-Head-Synthesis:探索人工智能驱动的会说话头像合成技术

2 个月前
Cover of Awesome-Talking-Head-Synthesis:探索人工智能驱动的会说话头像合成技术

AniPortrait:革命性的音频驱动人像动画合成技术

2 个月前
Cover of AniPortrait:革命性的音频驱动人像动画合成技术

GeneFace: 新一代高保真度音频驱动3D人脸生成技术

2 个月前
Cover of GeneFace: 新一代高保真度音频驱动3D人脸生成技术

DreamTalk:当富有表现力的说话人头生成遇上扩散概率模型

2 个月前
Cover of DreamTalk:当富有表现力的说话人头生成遇上扩散概率模型

EchoMimic: 革新性音频驱动肖像动画技术

2 个月前
Cover of EchoMimic: 革新性音频驱动肖像动画技术

相关项目

Project Cover
GeneFace
该项目展示了一种通用且高保真的音频驱动3D说话面部生成方法。GeneFace 实现了更好的唇同步和面部表现,即使在非典型音频中也是如此。项目附带预训练模型和数据集,方便快速上手,并支持使用个人视频训练独特的GeneFace模型。新发布的GeneFace++ 提升了唇同步、视频质量和系统效率,具备实时推断和更快的深度3D重建功能。
Project Cover
EchoMimic
EchoMimic是一个音频驱动的人像动画系统,通过编辑关键点来控制动画效果。系统支持英语和中文音频输入,可生成自然的口型、表情和头部动作。项目开源了推理代码和预训练模型,可用于生成高质量的说话头视频,适用于虚拟主播等应用场景。
Project Cover
dreamtalk
DreamTalk是一个创新的音频驱动说话头像生成系统,采用扩散概率模型技术。该系统能生成高质量、表情丰富的说话头像视频,适应多种说话风格。DreamTalk在处理歌曲、多语言语音、噪声音频和非常规肖像等多样化输入时表现优异。通过结合扩散概率模型,DreamTalk实现了准确的唇形同步和生动的面部表情,为不同说话风格提供了灵活支持。
Project Cover
AniPortrait
AniPortrait是一个基于音频和参考肖像图像生成高质量动画的开源框架。该项目支持自驱动、面部重演和音频驱动三种模式,可生成逼真的肖像动画。项目开源了预训练模型,并提供了详细的安装指南、推理命令和训练流程。AniPortrait为数字内容创作者提供了一种制作生动肖像动画的新方法,拓展了视觉内容创作的可能性。
Project Cover
EDTalk
EDTalk是一个创新的情感说话头像合成框架,实现了口型、头部姿势和情感表情的高效解耦。该框架通过三个轻量级模块将面部动态分解为独立的潜在空间,使用可学习的基向量定义特定动作。EDTalk采用正交基向量和高效训练策略确保各组件的独立性,并开发了音频到动作模块支持音频驱动的头像合成。这一技术在视频和音频输入下都能实现精确的情感说话头像生成。
Project Cover
Awesome-Talking-Head-Synthesis
这个项目收集了生成对抗网络(GANs)和神经辐射场(NeRF)在说话头合成领域的相关研究。内容包括图像和音频驱动的说话头生成技术、数据集、研究综述和代表性工作。从2D到3D、单模态到多模态,项目全面展示了说话头生成的技术发展,为相关研究提供参考资料。
Project Cover
MuseTalk
MuseTalk是一款实时高质量的音频驱动唇形同步模型,可在NVIDIA Tesla V100上以30fps+的速度运行。该模型能根据输入音频修改未见过的人脸,支持多种语言,并可调整面部区域中心点来影响生成效果。MuseTalk在HDTF数据集上训练,可与MuseV等虚拟人技术结合,为生成具全身动作和交互能力的虚拟人奠定基础。
Project Cover
hallo2
该项目利用音频驱动技术生成长时间、高分辨率的肖像动画,结合AI模型如StableDiffusion V1.5和wav2vec。项目展示包括泰勒·斯威夫特的演讲等多种案例,并提供安装指南和模型下载。源代码及预训练权重在GitHub及HuggingFace开放,适合开发者和研究者使用。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号