ICCV2023-MCNET

基于隐式身份表示的说话头视频生成方法

MCNet talking head 视频生成深度学习计算机视觉 Github 开源项目

MCNet是一种新型说话头视频生成方法，在ICCV 2023上发表。该方法利用隐式身份表示和记忆补偿网络，生成高质量、自然的说话头视频。MCNet能够保持身份一致性，同时生成逼真、富有表现力的面部动画。项目开源了代码实现和预训练模型，为研究者提供了探索和应用的基础。

first-order-model - First Order Motion Model：图像动画的高效解决方案

DockerFirst Order Motion ModelGithubPython图像动画开源项目数据集

First Order Motion Model项目提供了一种先进的图像动画运动模型，通过驾驶视频和源图像生成逼真的动画序列。支持包括VoxCeleb、Fashion和MGIF在内的多种数据集，提供详细的安装和使用指南。项目支持Python和Docker，确保了环境兼容性，还提供Colab和Kaggle的在线演示。此外，该项目还具备面部交换功能，适用于监督和非监督的视频编辑任务。

EMO - 音频驱动的富表情肖像视频生成模型

EMOGithub人像视频生成开源项目扩散模型表情合成音频到视频转换

EMO是一种音频到视频的扩散模型，可在弱条件下生成表现力丰富的肖像视频。该项目由阿里巴巴智能计算研究院开发，将音频输入转化为面部表情和头部动作，增强数字人物的自然度和情感表达。EMO技术在虚拟主播和数字人互动等领域具有应用潜力，可提供更真实的视觉体验。

metahuman-stream - 实时交互音视频同步对话的开源数字人项目

AI模型Github交互流式开源项目数字人视频处理音视频同步

metahuman-stream是一个开源的实时交互数字人项目，支持音视频同步对话和多种数字人模型。项目具备声音克隆、说话打断和全身视频拼接等功能，支持rtmp和webrtc传输。系统集成了多种TTS模型和LLM对话功能，为数字人应用开发提供丰富选择。该项目适用于商业级数字人应用开发，支持视频编排等高级特性。

Video-P2P - 跨注意力控制实现高质量视频内容转换技术

CVPR 2024GithubVideo-P2P人工智能开源项目视频编辑跨注意力控制

Video-P2P是一个发表于CVPR 2024的视频编辑项目，通过跨注意力控制机制实现视频内容的高质量转换。该项目提供快速和稳定两种运行模式，支持物体替换、风格转换等多种编辑场景。项目团队公开了相关数据集和在线演示，为研究人员和开发者提供了实用资源，促进了视频编辑技术的进步。

AutoStudio - 提升多轮交互图像生成的主体一致性

AutoStudioGithub主体一致性多轮交互式图像生成大语言模型开源项目稳定扩散

AutoStudio是一个创新的多代理框架，专注于解决多轮交互式图像生成中的主体一致性问题。该框架包含主体管理器、布局生成器、监督器和绘图器四个核心组件。通过引入并行U-Net和主体初始化生成方法，AutoStudio实现了连贯多主体图像序列的生成。在CMIGBench基准测试中，该框架在平均Fréchet Inception Distance和平均字符-字符相似度方面分别提升了13.65%和2.83%，展示了其在多轮交互中保持多主体一致性的优异表现。

EasyVtuber - 基于AI的实时虚拟形象生成工具

AI虚拟主播EasyVtuberGithub实时动画开源项目视频会议角色脸部生成

EasyVtuber是一个开源的虚拟形象生成工具，利用面部特征识别和GAN技术实现实时动画效果。该项目支持在Google Meet、Zoom等视频会议平台上使用自定义卡通或漫画角色。EasyVtuber提供了详细的安装指南和自定义角色创建教程，使虚拟形象互动变得简单易用。该工具要求Python 3.8以上版本，Pytorch 1.7以上版本，并依赖pyvirtualcam、mediapipe和opencv-python等库。然而，值得注意的是，EasyVtuber在RTX 2070以下的显卡上可能无法实现实时运行。

hallo - 分层音频驱动人像动画合成框架

AI动画GithubHallo人像动画开源项目视频合成语音驱动

Hallo是一个分层音频驱动的视觉合成框架，用于生成人像图像动画。该框架可根据输入音频创建高质量的说话头像视频，支持重现多种经典电影场景。Hallo采用分层设计，整合多个先进模型，实现精细的面部表情和唇形同步。项目提供完整的训练和推理代码，适用于多种应用场景。

sd-controlnet-mlsd - 结合M-LSD直线检测优化Stable Diffusion的图像生成

ControlNetGithubHuggingfaceM-LSDStable Diffusion开源项目扩散模型条件输入模型

该项目介绍了ControlNet神经网络结构，通过加入M-LSD直线检测等条件来控制大规模扩散模型，适用于Stable Diffusion。ControlNet能够在小数据集下进行稳健学习，且可在个人设备上快速训练。项目提供了多种检查点，涵盖边缘检测、深度估计和关键点检测，丰富了大规模扩散模型的控制方式，有助于推进相关应用的发展，最佳效果在Stable Diffusion v1-5结合使用时体现。

StyleSpeech - 多说话人自适应文本转语音生成

GithubMeta-StyleSpeech开源项目文本到语音自适应音质预训练模型

Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术，通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术，高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。

Realtime_Multi-Person_Pose_Estimation - 实时多人人体姿态估计的开源实现

CVPRGithubMSCOCO Keypoints ChallengeOpenPosePart Affinity FieldsRealtime Multi-Person Pose Estimation开源项目

该项目展示了一种无需人体检测器的实时多人人体姿态估计方法，曾获2016年MSCOCO关键点挑战赛冠军等多个奖项。项目提供了C++、TensorFlow、Pytorch等多种实现版本，适用于不同应用场景。页面还包括详细的测试与训练步骤，以及相关的代码库和资源链接，适合研究人员和开发者使用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com