Project Icon

CFLD

粗到细潜在扩散实现姿态引导人像合成

CFLD项目提出粗到细潜在扩散方法,用于姿态引导的人像合成。该方法采用多阶段策略,先生成粗略草图再逐步细化,提高了生成图像质量和准确性。作为CVPR 2024亮点论文,CFLD在人像合成领域展现了重要进展。

normal-depth-diffusion - 通用法线深度扩散模型实现高细节3D生成
3D模型AI生成GithubNormal-Depth Diffusion Model图像生成开源项目深度学习
Normal-Depth Diffusion Model是一个创新的文本到3D生成模型,采用法线深度扩散技术生成细节丰富的3D模型。该项目支持单视图和多视图生成,提供预训练权重、推理和训练代码,以及Objaverse数据集的多视图渲染图像。这一模型为3D内容创作开辟新途径,可应用于艺术设计等多个领域。
CyberRealistic - 通过Stable Diffusion技术实现高细节的真实图像生成
AI绘图CyberRealisticGithubHuggingface开源项目文本到图像模型照片级真实感高细节
CyberRealistic V2使用Stable Diffusion和Diffusers技术实现高细节图像生成,这项技术特别适合那些需要精美视觉效果的创意作品。
ImageDream - 利用图像提示的多视角扩散方法实现创新3D内容生成
GithubImageDream三维生成人工智能图像提示多视图扩散开源项目
ImageDream是一个从单一2D图像输入生成逼真3D内容的开源项目。它结合图像提示和多视角扩散技术创建高质量3D模型,支持软阴影渲染,并提供简便的配置和安装指南。该项目展示了图像引导3D生成的最新应用,为计算机视觉和图形学研究提供了新的实验平台。
CVPR2022-DaGAN - 基于深度感知的说话头像视频生成技术
DaGANGithub人工智能对抗生成网络开源项目深度感知视频生成
DaGAN是一种新型深度感知生成对抗网络,旨在生成高质量的说话头像视频。该方法利用面部深度信息提升生成效果,可适用于卡通和真人头像。在VoxCeleb1数据集上,DaGAN展现出优异性能。项目开源了预训练模型、在线演示和训练代码,便于研究复现。作为CVPR 2022的成果,DaGAN代表了说话头像生成领域的重要进展。
Guided-pix2pix - 引导式图像转换,双向特征变换的创新应用
Github双向特征转换图像翻译开源项目深度学习神经网络计算机视觉
Guided-pix2pix项目推出创新的图像转换方法,运用双向特征变换技术提高引导式图像生成的精确度。该方法在姿势迁移、纹理迁移和深度上采样领域展现出优异性能,生成的图像质量更高、更贴合引导信息。项目开放完整代码和预训练模型,为研究人员提供便利的实验和开发环境。
FollowYourPose - 基于姿态和文本的自动视频生成技术
AAAI 2024AI生成Follow-Your-PoseGithub姿态控制开源项目文本生成视频
FollowYourPose项目提出了一种新方法,可以通过姿态和文本生成视频。该方法采用两阶段训练方案,利用易获取的数据集和预训练的文本到图像模型,生成可编辑且姿态可控的角色视频。第一阶段通过关键点图像对进行文本到图像的生成,第二阶段利用姿态自由视频数据集微调网络,成功生成连续的姿态可控角色视频,同时保留预训练模型的编辑和概念组合能力。
GaussianDreamer - 通过桥接 2D 和 3D 扩散模型从文本快速生成到 3D 高斯
2D扩散模型3D扩散模型3D生成CVPR 2024GaussianDreamerGithub开源项目
本文客观介绍了通过整合2D和3D扩散模型的快速3D对象生成框架GaussianDreamer。3D扩散模型提供初始几何信息,而2D扩散模型则增强了其几何和外观。GaussianDreamer在单个GPU上可在15分钟内生成高质量的3D实例,比现有方法更快。生成的3D实例支持实时渲染,可方便地整合到动画和仿真管道中。
PuLID - 基于对比对齐的高效ID定制技术
AI绘图GithubPuLID图像生成开源项目深度学习计算机视觉
PuLID是一种基于对比对齐的ID定制技术,能够快速生成高质量个性化图像。该项目提供本地Gradio和在线Hugging Face演示,并获得社区广泛支持,包括Colab和Replicate等第三方实现。PuLID旨在推动AI图像生成领域的发展,为研究人员和开发者提供实用工具和资源。
FontDiffuser - 多尺度内容聚合与风格对比学习的字体生成模型
AAAI2024AI字体生成FontDiffuserGithub一次性生成开源项目扩散模型
FontDiffuser是一个基于多尺度内容聚合和风格对比学习的字体生成模型。它能够生成新颖字符和风格,支持跨语言生成(如中文到韩文)。该模型在处理复杂字符和大幅风格变化方面表现优异,达到了领先水平。FontDiffuser生成的结果可与InstructPix2Pix结合用于进一步装饰。项目开源并提供在线演示。
dressing-in-order - 递归生成人物图像的姿势迁移和虚拟试衣技术
GithubICCV人像生成姿势迁移开源项目服装编辑虚拟试衣
Dressing in Order 项目开发了一种创新的人物图像生成方法,实现姿势迁移、虚拟试衣和服装编辑功能。系统通过递归方式按顺序生成人物图像各部分,提高了图像操控的精细度和灵活性。项目提供开源代码、预训练模型和在线演示,便于研究者探索和应用这一技术。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号