Project Icon

Human-Video-Generation

人工智能视频生成技术的演进与应用

Human-Video-Generation项目收录了2018年以来人工智能视频生成领域的重要研究成果。该项目涵盖面部重演、动作迁移和语音驱动动画等多个方向,提供了前沿论文、代码实现和演示视频。从早期的PSGAN到最新的Real3D-Portrait,项目全面展示了AI视频生成技术的快速进展,为相关领域的研究者和开发者提供了丰富的参考资源。

人体视频生成

论文列表

2018年

  • Face2Face: "RGB视频的实时人脸捕捉与重演" "CVPR" (2016) [论文][项目]
  • PSGAN: "基于姿势引导的人体视频生成" "ECCV" (2018) [论文]
  • DVP: "深度视频肖像" "Siggraph"(2018) [论文][项目]
  • Recycle-GAN: "Recycle-GAN: 无监督视频重定向" "ECCV"(2018) [论文][项目][代码]
  • X2Face: "X2Face: 一个使用图像、音频和姿势编码控制人脸生成的网络" "ECCV"(2018) [论文][项目][代码]
  • EBDN: "人人都能跳舞" "arXiv"(2018) [论文][项目]
  • Vid2Vid: "视频到视频合成" "NIPS"(2018) [论文][项目][代码]

2019年

  • NAR: "人类演员视频的神经动画和重演" "Siggraph"(2019) [论文][项目]
  • TETH: "基于文本的说话头视频编辑" "Siggraph"(2019) [论文][项目]
  • VPC: "基于深度视频的表演克隆" "Eurographics"(2019) [论文]
  • FSTH: "少样本对抗学习的逼真神经说话头模型" "CVPR"(2019) [论文][非官方代码]
  • TNA: "纹理神经化身" "CVPR"(2019) [论文][项目]
  • VOCA: "语音操控角色动画" "CVPR"(2019) [论文][项目][代码]
  • Audio2Face: "Audio2Face: 使用基于注意力的双向LSTM网络从单一音频生成语音/人脸动画" "arXiv"(2019) [论文]
  • RSDA: "使用GAN的逼真语音驱动动画" "arXiv"(2019) [论文][项目][代码]
  • LISCG: "学习个人对话手势风格" "arXiv"(2019) [论文] [项目][代码]
  • AUDIO2FACE: "使用基于注意力的双向LSTM网络从单一音频生成语音/人脸动画" "ICMI"(2019)
  • AvatarSim: "具有唇同步和表情能力的高保真开放式具身化身" "ICMI"(2019) 代码
  • NVP: "神经语音木偶:音频驱动的面部重演" "arXiv"(2019) [论文]
  • CSGN: "基于骨架的动作合成卷积序列生成" "ICCV"(2019) [论文]
  • Few shot VID2VID: "少样本视频到视频合成" [论文] [项目] [代码]
  • FOM: "图像动画的一阶运动模型" "NIPS"(2019) [论文] [项目] [代码]

2020年

  • TransMoMo: "TransMoMo: 不变性驱动的无监督视频运动重定向" "CVPR"(2020) [论文] [项目] [代码]
  • poseflow: "深度图像空间变换用于人物图像生成" "CVPR"(2020) [论文] [项目] [代码]
  • PIFuHD: "PIFuHD: 用于高分辨率3D人体数字化的多层像素对齐隐函数" "CVPR(口头报告)"(2020) [论文] [项目] [代码]
  • Hifi3dface:"从RGB-D自拍照创建高保真3D数字人像" "arXiv"(2020.10)[论文][项目] [代码]
  • face-vid2vid:"用于视频会议的单次免视图神经说话头合成" "arXiv"(2020.11)[论文] [项目] [代码]
  • HeadGan:"HeadGAN:视频和音频驱动的说话头合成" "arXiv"(2020.12)[论文]
  • "基于学习的个性化头部姿势的音频驱动说话面部视频生成" "arXiv"(2020)[论文][代码]

2021年

  • Talking-Face_PC-AVS:《通过隐式模块化音视频表示实现可控姿态的说话人脸生成》"CVPR"(2021) [代码][项目][演示]
  • Pixel Codec Avatar《像素编解码器头像》"arXiv"(2021.04) [论文]
  • MRAA《用于关节动画的运动表示》"CVPR"(2021) [项目]
  • NWT《通过表示学习实现自然的音频到视频生成》"arXiv"(2021)[论文][项目]
  • LipSync3D《利用姿态和光照归一化从视频中高效学习个性化3D说话人脸》"arXiv"(2021) [论文][演示]
  • AD-NeRF《用于说话头合成的音频驱动神经辐射场》"ICCV"(2021) [论文][代码][演示][项目]
  • LSP《实时语音肖像:实时逼真的说话头动画》[论文][代码][项目][演示]
  • FaceFormer《FaceFormer:基于Transformer的语音驱动3D面部动画》"arXiv"(2021.12) [论文]
  • HeadNeRF《HeadNeRF:基于NeRF的实时参数化头部模型》"arXiv"(2021.12) [论文][项目]
  • FACIAL《FACIAL:通过隐式属性学习合成动态说话人脸》"ICCV"(2021) [论文][代码]

2022年

  • NPFAP《用于制作的视频驱动神经物理面部资产》"arXiv"(2022.02)[论文]
  • PGMPI《基于姿态引导多平面图像的实时神经角色渲染》"ECCV"(2022) [论文][代码][项目]
  • VideoReTalking《基于音频的野外说话头视频编辑唇形同步》"arXiv"(2022.11) [论文][代码][项目]
  • One-Shot-Talking-Face《基于单说话人音视频相关性学习的一次性说话人脸生成》"AAAI"(2022) [论文][代码][演示]
  • RAD-NeRF:实时神经说话肖像合成:"arXiv"(2022.12)[论文][代码]

2023年

  • SadTalker《学习逼真的3D运动系数用于风格化音频驱动的单图像说话人脸动画》"CVPR"(2023) [论文][代码][项目]
  • GeneFace:通用高保真音频驱动3D说话人脸合成 "ICLRv"(2023) [项目][代码][dockerfile]
  • 迈向逼真的生成式3D人脸模型 "arXiv"(2023.04) [论文][项目][代码]
  • Live 3D Portrait:用于单图像肖像视图合成的实时辐射场 "SIGGRAPH" (2023) [项目][论文]
  • StyleAvatar:从单个视频实时生成逼真的肖像头像 "SIGGRAPH" (2023) [代码][项目][论文]
  • OTAvatar:具有可控三平面渲染的一次性说话人脸头像 [代码] "arXiv"(2023) [论文]
  • DisCoHead:通过解耦控制头部姿态和面部表情的音视频驱动说话头生成 "arXiv"(2023) [项目]
  • GeneFace++:通用稳定的实时音频驱动3D说话人脸生成:[项目]
  • HumanRF:用于运动中人类的高保真神经辐射场 "SIGGRAPH" (2023) [项目][代码]
  • PointAvatar:基于视频的可变形点头像 "CVPR"(2023) [项目][代码][论文]
  • SyncTalk:SyncTalk:说话头合成的魔鬼😈在于同步 "arXiv(2023.11)[项目][代码]

2024年

  • Real3D-Portait: 真实3D肖像:一次性逼真3D会说话的肖像合成 "ICLR(2024)" [项目][代码][论文]
  • EMO: 生动的肖像动画 - 使用弱条件下的音频到视频扩散模型生成富有表现力的肖像视频 "arXiv"(2024.02) [项目][论文][代码]

应用

换脸

  • ZAO:一款热门应用。

基于ZAO生成的视频

AI主播:

搜狗生成的视频

数据集

研究人员与团队

  1. 马克斯普朗克信息学研究所图形、视觉与视频组
  2. 马克斯普朗克信息学研究所真实虚拟人类组
  3. 慕尼黑工业大学视觉计算组
  4. 马克斯普朗克智能系统研究所感知系统部
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号