Human-Video-Generation

人工智能视频生成技术的演进与应用

人体视频生成深度学习计算机视觉人工智能 3D建模 Github 开源项目

Human-Video-Generation项目收录了2018年以来人工智能视频生成领域的重要研究成果。该项目涵盖面部重演、动作迁移和语音驱动动画等多个方向，提供了前沿论文、代码实现和演示视频。从早期的PSGAN到最新的Real3D-Portrait，项目全面展示了AI视频生成技术的快速进展，为相关领域的研究者和开发者提供了丰富的参考资源。

Github

介绍相关项目

人体视频生成

论文列表

2018年

Face2Face: "RGB视频的实时人脸捕捉与重演" "CVPR" (2016) [论文][项目]
PSGAN: "基于姿势引导的人体视频生成" "ECCV" (2018) [论文]
DVP: "深度视频肖像" "Siggraph"(2018) [论文][项目]
Recycle-GAN: "Recycle-GAN: 无监督视频重定向" "ECCV"(2018) [论文][项目][代码]
X2Face: "X2Face: 一个使用图像、音频和姿势编码控制人脸生成的网络" "ECCV"(2018) [论文][项目][代码]
EBDN: "人人都能跳舞" "arXiv"(2018) [论文][项目]
Vid2Vid: "视频到视频合成" "NIPS"(2018) [论文][项目][代码]

2019年

NAR: "人类演员视频的神经动画和重演" "Siggraph"(2019) [论文][项目]
TETH: "基于文本的说话头视频编辑" "Siggraph"(2019) [论文][项目]
VPC: "基于深度视频的表演克隆" "Eurographics"(2019) [论文]
FSTH: "少样本对抗学习的逼真神经说话头模型" "CVPR"(2019) [论文][非官方代码]
TNA: "纹理神经化身" "CVPR"(2019) [论文][项目]
VOCA: "语音操控角色动画" "CVPR"(2019) [论文][项目][代码]
Audio2Face: "Audio2Face: 使用基于注意力的双向LSTM网络从单一音频生成语音/人脸动画" "arXiv"(2019) [论文]
RSDA: "使用GAN的逼真语音驱动动画" "arXiv"(2019) [论文][项目][代码]
LISCG: "学习个人对话手势风格" "arXiv"(2019) [论文] [项目][代码]
AUDIO2FACE: "使用基于注意力的双向LSTM网络从单一音频生成语音/人脸动画" "ICMI"(2019)
AvatarSim: "具有唇同步和表情能力的高保真开放式具身化身" "ICMI"(2019) 代码
NVP: "神经语音木偶：音频驱动的面部重演" "arXiv"(2019) [论文]
CSGN: "基于骨架的动作合成卷积序列生成" "ICCV"(2019) [论文]
Few shot VID2VID: "少样本视频到视频合成" [论文] [项目] [代码]
FOM: "图像动画的一阶运动模型" "NIPS"(2019) [论文] [项目] [代码]

2020年

TransMoMo: "TransMoMo: 不变性驱动的无监督视频运动重定向" "CVPR"(2020) [论文] [项目] [代码]
poseflow: "深度图像空间变换用于人物图像生成" "CVPR"(2020) [论文] [项目] [代码]
PIFuHD: "PIFuHD: 用于高分辨率3D人体数字化的多层像素对齐隐函数" "CVPR(口头报告)"(2020) [论文] [项目] [代码]
Hifi3dface："从RGB-D自拍照创建高保真3D数字人像" "arXiv"（2020.10）[论文][项目] [代码]
face-vid2vid："用于视频会议的单次免视图神经说话头合成" "arXiv"（2020.11）[论文] [项目] [代码]
HeadGan："HeadGAN：视频和音频驱动的说话头合成" "arXiv"（2020.12）[论文]
"基于学习的个性化头部姿势的音频驱动说话面部视频生成" "arXiv"（2020）[论文][代码]

2021年

Talking-Face_PC-AVS：《通过隐式模块化音视频表示实现可控姿态的说话人脸生成》"CVPR"(2021) [代码][项目][演示]
Pixel Codec Avatar《像素编解码器头像》"arXiv"(2021.04) [论文]
MRAA《用于关节动画的运动表示》"CVPR"(2021) [项目]
NWT《通过表示学习实现自然的音频到视频生成》"arXiv"(2021)[论文][项目]
LipSync3D《利用姿态和光照归一化从视频中高效学习个性化3D说话人脸》"arXiv"(2021) [论文][演示]
AD-NeRF《用于说话头合成的音频驱动神经辐射场》"ICCV"(2021) [论文][代码][演示][项目]
LSP《实时语音肖像：实时逼真的说话头动画》[论文][代码][项目][演示]
FaceFormer《FaceFormer：基于Transformer的语音驱动3D面部动画》"arXiv"(2021.12) [论文]
HeadNeRF《HeadNeRF：基于NeRF的实时参数化头部模型》"arXiv"(2021.12) [论文][项目]
FACIAL《FACIAL：通过隐式属性学习合成动态说话人脸》"ICCV"(2021) [论文][代码]

2022年

NPFAP《用于制作的视频驱动神经物理面部资产》"arXiv"(2022.02)[论文]
PGMPI《基于姿态引导多平面图像的实时神经角色渲染》"ECCV"(2022) [论文][代码][项目]
VideoReTalking《基于音频的野外说话头视频编辑唇形同步》"arXiv"(2022.11) [论文][代码][项目]
One-Shot-Talking-Face《基于单说话人音视频相关性学习的一次性说话人脸生成》"AAAI"(2022) [论文][代码][演示]
RAD-NeRF：实时神经说话肖像合成："arXiv"(2022.12)[论文][代码]

2023年

SadTalker《学习逼真的3D运动系数用于风格化音频驱动的单图像说话人脸动画》"CVPR"(2023) [论文][代码][项目]
GeneFace：通用高保真音频驱动3D说话人脸合成 "ICLRv"(2023) [项目][代码][dockerfile]
迈向逼真的生成式3D人脸模型 "arXiv"(2023.04) [论文][项目][代码]
Live 3D Portrait：用于单图像肖像视图合成的实时辐射场 "SIGGRAPH" (2023) [项目][论文]
StyleAvatar：从单个视频实时生成逼真的肖像头像 "SIGGRAPH" (2023) [代码][项目][论文]
OTAvatar：具有可控三平面渲染的一次性说话人脸头像 [代码] "arXiv"(2023) [论文]
DisCoHead：通过解耦控制头部姿态和面部表情的音视频驱动说话头生成 "arXiv"(2023) [项目]
GeneFace++：通用稳定的实时音频驱动3D说话人脸生成：[项目]
HumanRF：用于运动中人类的高保真神经辐射场 "SIGGRAPH" (2023) [项目][代码]
PointAvatar：基于视频的可变形点头像 "CVPR"(2023) [项目][代码][论文]
SyncTalk：SyncTalk：说话头合成的魔鬼😈在于同步 "arXiv(2023.11)[项目][代码]

2024年

Real3D-Portait: 真实3D肖像：一次性逼真3D会说话的肖像合成 "ICLR(2024)" [项目][代码][论文]
EMO: 生动的肖像动画 - 使用弱条件下的音频到视频扩散模型生成富有表现力的肖像视频 "arXiv"(2024.02) [项目][论文][代码]

应用

换脸

ZAO：一款热门应用。

AI主播：

数据集

研究人员与团队

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号