#扩散模型
Imagen - 文字生成图片的AI技术
热门AI开发模型训练AI工具Imagen文本到图像扩散模型COCO FID语言模型
Imagen,一种先进的AI图片生成工具,利用深度语言理解和极致的图像真实性,实现从文字到图像的转换。此模型不仅在COCO数据集上刷新了技术记录,还通过高效的U-Net架构和强大的文本编码系统,优化了图文一致性和图像质量。鉴于潜在的社会影响和数据集偏差问题,当前未开放源代码或公共演示版本。
VAR - 通过大规模预测生成可扩展图像的视觉自回归模型
VAR可视化自回归建模图像生成GPT风格模型扩散模型Github开源项目
VAR模型利用创新的'下一尺度预测'策略,重塑自回归图像学习方式,优于传统扩散模型。它适用于多种图像生成任务,展现出优秀的尺度预测与型态泛化能力。现可通过FoundationVision/var进行交互体验。
SkyPaint-AI-Diffusion - 支持中文和英文文本输入的现代艺术图像生成工具
SkyPaint文本生成图像图像编码器扩散模型SkyCLIPGithub开源项目
SkyPaint由奇点智源开发,支持中文和英文文本输入,生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化,支持多种提示词输入。用户可以在线体验SkyPaint,模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练,显著降低算力需求,提升模型性能。项目持续优化,旨在为开源社区提供便捷的复现和微调解决方案,适用于多语言图文检索和生成任务。
foldingdiff - Protein生成和优化的扩散模型工具
foldingdiff扩散模型蛋白质生成CATH数据集PyTorch LightningGithub开源项目
使用扩散模型生成新的蛋白骨架结构。提供详细的安装、数据下载和模型训练指南,支持预训练模型的加载和采样。评估生成骨架的设计性能和结构一致性,适合具备Python和PyTorch基础的研发人员使用,通过浏览器便捷地生成蛋白质结构。
T-GATE - 研究了在文本到图像扩散模型中的时序注意机制
TGATE跨注意力自注意力扩散模型图像生成Github开源项目
TGATE项目研究了在文本到图像扩散模型中的时序注意机制。研究发现,交叉注意输出在几步推理后可以收敛到固定点,通过采用缓存和重用这些输出的方式,无需额外训练,即可提升现有模型的运行速度10%–50%。TGATE易于集成,提供快速图像生成,适用于CNN U-Net、Transformer和Consistency Model。
cycle-diffusion - 零样本图像翻译与无配对图片转换的扩散模型方法
CycleDiffusion扩散模型零样本图像编辑HuggingFacePyTorchGithub开源项目
该项目展示了如何正规化扩散模型中的随机种子,并实现零样本图像到图像翻译和指导。CycleDiffusion方法无需配对图像,利用稳定扩散等模型实现图像翻译。项目还提供详细的安装和使用指南,包括依赖项、预训练模型和评估数据等内容,通过这些工具可提高生成图像的质量和一致性。
Paint-by-Example - 通过扩散模型进行示范导向的图像编辑
Paint by Example图像编辑自监督训练扩散模型HuggingfaceGithub开源项目
该项目通过自监督训练,重新组合源图像及示范图像,避免了直接复制粘贴带来的伪影。采用任意形状掩码和无分类器指导,提升编辑过程的可控性,并通过一次性前向扩散模型实现高保真图像编辑。项目展示了对自然图像的高效可控编辑效果,提供了预训练模型、测试基准和量化结果,适用于图像编辑和生成的研究与应用。
MultiDiffusion - 基于预训练模型的多功能可控的图像生成框架
MultiDiffusion图像生成扩散模型文本到图像可控生成Github开源项目
MultiDiffusion 是一个统一框架,通过预训练的文字转图像扩散模型,实现多功能且可控的图像生成,无需进一步训练或微调。该框架支持用户使用各种控制信号,如纵横比和空间引导信号,生成高质量、多样化的图像。MultiDiffusion 优化了多重扩散生成过程,使用一组共享参数或约束,支持局部和全局编辑,适用于如烟雾、火焰和雪等半透明效果。
FateZero - 无需训练的文本生成视频编辑框架
FateZero视频编辑文本驱动扩散模型零样本Github开源项目
FateZero是第一个无需训练即可基于文本进行视频编辑的框架,该框架利用预训练扩散模型实现了一致且强大的编辑能力。通过中间注意力图保留结构与运动信息,并结合自注意力和时空注意力机制,确保视频帧的一致性。FateZero展示了从文本到视频的零噪点样式编辑和局部属性编辑的优越性能。
TF-ICON - 利用Text-driven Diffusion模型实现跨域图像无训练组合的框架
TF-ICON跨域图像合成扩散模型ICCV 2023无训练Github开源项目
TF-ICON是一个利用Text-driven Diffusion模型实现跨域图像无训练组合的框架。相比需要实例化优化或微调预训练模型的方法,TF-ICON无需额外训练或优化,就可无缝集成用户提供的对象,还使用了特别提示来帮助模型准确还原真实图像。实验表明,该方法在多个数据集(如CelebA-HQ、COCO和ImageNet)上的表现优于现有技术。
TokenFlow - 改进一致性的视频编辑方法
TokenFlow视频编辑文本驱动扩散模型生成式AIGithub开源项目
TokenFlow 利用预训练的文本到图像扩散模型,实现无需额外训练或微调的高质量视频编辑。通过帧间对应关系传播扩散特征,支持局部及全局编辑,比如改变现有物体的纹理或添加半透明效果(如烟雾、火焰、雪),同时保持输入视频的空间布局和动态效果。
StableSR - 通过扩散模型实现实际应用中的图像超分辨率
StableSR图像超分辨率扩散模型Hugging Face模型训练Github开源项目
StableSR项目采用扩散模型,提高了真实世界场景中的图像超分辨率效果。最新更新包括对SD-Turbo的支持以及与ComfyUI和Hugging Face平台的集成。用户可以通过各种平台体验和测试该项目的功能。项目提供了详细的文档、代码示例和训练脚本,已被IJCV期刊接受,并在多个公开数据集中展示了其性能和效果。
Wonder3D - 使用跨域扩散技术从单一图像快速生成高质量3D模型
Wonder3D3D重建扩散模型单视图重建多视图一致性Github开源项目
Wonder3D是一个开源的3D重建项目,采用跨域扩散技术从单一图像生成高质量3D模型。该方法首先生成多视图法线贴图和彩色图像,然后通过法线融合实现快速重建。项目提供了推理和训练代码,支持自定义数据训练,并包含使用说明和演示。Wonder3D在重建速度和质量上均有优势,为3D内容创作提供了高效解决方案。
ReNoise-Inversion - 迭代重噪图像反演方法提升重建精度和编辑效果
ReNoise图像反演扩散模型AI图像处理迭代噪声Github开源项目
ReNoise-Inversion项目开发了一种创新的图像反演方法,利用迭代重噪机制提高重建精度,同时保持低操作成本。该方法适用于多种采样算法和模型,包括最新的加速扩散模型。实验表明,ReNoise技术在精确度和速度方面表现优异,同时保持了图像的可编辑性。这一技术为基于文本的真实图像编辑开辟了新途径。
Marigold - 基于扩散模型的单目深度估计新方法
Marigold深度估计扩散模型单目计算机视觉Github开源项目
Marigold项目开发了一种基于扩散模型的单目深度估计方法。该方法利用Stable Diffusion中的视觉知识,通过合成数据微调,实现了对未见数据的零样本迁移。Marigold不仅提供了高精度的深度估计结果,还包含快速推理版本,为计算机视觉领域提供了新的研究方向。
edm2 - 优化扩散模型训练动态的创新技术
EDM2扩散模型图像生成训练动态PyTorchGithub开源项目
EDM2项目开发了改进扩散模型训练动态的新方法。通过重新设计网络层来维持激活、权重和更新幅度的期望值,该方法显著提高了模型效果。在ImageNet-512图像合成中,EDM2使FID得分从2.41提升到1.81。项目还引入了训练后调整指数移动平均(EMA)参数的技术,可精确设置EMA长度,为模型优化开辟新途径。
chroma - 用于蛋白质设计的可编程生成模型
Chroma蛋白质设计生成模型条件控制扩散模型Github开源项目
Chroma是一个创新的蛋白质设计生成模型,结合了扩散建模、等变图神经网络和条件随机场技术。它提供多种蛋白质条件器,用于控制子结构、对称性和形状等,并支持自定义条件器开发。Chroma可高效采样全原子结构,实现骨架序列生成、侧链打包等蛋白质建模任务。在普通GPU上,Chroma能快速生成大型蛋白质复合物,为蛋白质设计领域带来新的可能性。
RayDiffusion - 射线扩散模型在相机姿态估计中的应用
RayDiffusion相机姿态估计深度学习计算机视觉扩散模型Github开源项目
RayDiffusion项目提出了一种将相机表示为射线并应用扩散模型的姿态估计方法。该方法支持已知边界框和从掩码自动提取边界框两种模式,同时提供射线回归选项。项目包含代码实现、预训练模型和使用说明,适用于计算机视觉领域的研究和开发。
DRLX - 强化学习框架优化扩散模型
DRLX扩散模型强化学习分布式训练Stable DiffusionGithub开源项目
DRLX是一个基于强化学习的扩散模型分布式训练库。它与Hugging Face的Diffusers库集成,支持多GPU和多节点训练。DRLX兼容Stable Diffusion等模型,实现DDPO算法训练。该库采用即插即用设计,训练模型可直接用于原始管道。DRLX集成了美学评分奖励模型和PickAPic提示词生成功能,为扩散模型研究提供了全面的工具集。
DiffMorpher - 扩散模型驱动的高质量图像变形技术
DiffMorpher图像变形扩散模型深度学习计算机视觉Github开源项目
DiffMorpher是一项基于扩散模型的图像变形技术。该项目结合AdaIN和重新调度采样方法,实现高质量、连续的图像变形。DiffMorpher不仅适用于人脸,还能处理各种一般物体的变形,拓展了图像编辑的应用范围。项目同时推出MorphBench,作为评估一般物体图像变形效果的首个基准数据集。
IP-Adapter - 轻量级图像提示适配器提升文图生成效果
IP-Adapter文本到图像生成扩散模型图像提示多模态生成Github开源项目
IP-Adapter是一款轻量高效的图像提示适配器,仅需22M参数即可为预训练文本到图像扩散模型提供图像提示功能。它不仅性能卓越,还可泛化到其他自定义模型,与现有控制工具兼容实现可控生成。IP-Adapter支持图像和文本提示配合使用,实现多模态图像生成,为AI图像生成领域带来新的可能性。
Smooth-Diffusion - 提升扩散模型潜在空间平滑性的新方法
Smooth Diffusion扩散模型图像生成潜在空间CVPR 2024Github开源项目
Smooth Diffusion是一种创新的扩散模型技术,通过优化潜在空间的平滑性来提升模型性能。这种方法在图像插值、反演和编辑任务中展现出显著优势,实现了更连续的过渡效果、更低的反演误差,以及更好的未修改内容保留。通过在训练过程中引入变化约束,Smooth Diffusion为扩散模型研究开辟了新方向。
Live2Diff - 革新视频扩散模型的实时流翻译技术
Live2Diff视频翻译AI模型实时流处理扩散模型Github开源项目
Live2Diff是一款基于视频扩散模型的实时流翻译工具。该项目采用单向时间注意力机制,结合多时间步KV缓存和深度先验技术,实现高效的视频处理。支持DreamBooth和LoRA风格迁移,并通过TensorRT优化性能。在512x512分辨率下,处理速度可达16.43 FPS,为实时视频翻译领域提供了新的技术方案。
latent-consistency-model - 高效快速的少步推理图像合成模型
Latent Consistency ModelsAI绘图图像生成扩散模型深度学习Github开源项目
Latent Consistency Models (LCM) 是一种创新的图像生成技术,通过将分类器自由引导蒸馏到模型输入中,实现高效的少步推理。LCM支持文本到图像和图像到图像的生成,在极短时间内生成高质量图像,同时提供多种易用的演示。该技术在保持图像质量的同时显著缩短推理时间,为实时图像生成提供了新的可能性。
UniPC - 统一预测校正框架加速扩散模型采样
UniPC扩散模型快速采样预测器-校正器框架图像生成Github开源项目
UniPC是一个无需训练的扩散模型快速采样框架。它由统一分析形式的校正器UniC和预测器UniP组成,支持任意阶数,适用于像素空间和潜在空间的DPM。UniPC通过提高精度阶数,在5-10步内显著提升采样质量和收敛速度。该框架已成功集成到stable-diffusion-webui和Diffusers等开源项目中,展现了其在AI生成领域的广泛应用潜力。
audio-ai-timeline - 音频AI领域2023年重大进展及模型概览
AI音频生成文本转语音音乐生成深度学习扩散模型Github开源项目
Audio AI Timeline项目追踪2023年音频生成领域AI模型进展。涵盖MusicLM、AudioLDM 2等重要模型,展示文本到音频、音乐生成和语音合成技术发展。项目记录模型发布日期、论文、代码和训练资源,为音频AI领域研究者和开发者提供参考。
Awesome-Video-Diffusion - 人工智能视频生成与编辑技术资源大全
视频生成扩散模型文本到视频AI视频视频编辑Github开源项目
本文汇集了视频生成、编辑、修复和理解领域的最新扩散模型研究。内容包括开源工具箱、基础模型、评估基准和指标等。涵盖基础视频生成、可控生成、长视频生成、3D视频生成等多个方向,为视频AI技术研究和开发提供全面参考。
PixArt-alpha - 高效训练的Transformer扩散模型实现逼真文本到图像生成
PixArt-α文本生成图像扩散模型Transformer高效训练Github开源项目
PixArt-α是一个基于Transformer的文本到图像扩散模型,其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型,仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计,PixArt-α在大幅降低训练成本的同时,保证了优秀的图像生成质量、艺术性和语义控制能力。
ctm - 创新的单步扩散模型采样方法
CTM扩散模型图像生成单步采样ICLR 2024Github开源项目
Consistency Trajectory Model (CTM)是一种新型扩散模型采样方法。该模型在CIFAR-10和ImageNet 64x64数据集的单步采样中表现出色,FID分数分别为1.73和1.92。CTM提供多种采样选项,平衡了计算资源和样本质量。项目开源了PyTorch实现,包含模型训练、采样和评估代码,方便研究人员使用。
RAVE - 基于扩散模型的高效视频编辑技术
RAVE视频编辑扩散模型零样本CVPRGithub开源项目
RAVE是一种基于预训练文本到图像扩散模型的视频编辑技术,无需额外训练即可实现高质量视频编辑。通过创新的噪声重排策略,RAVE提高了视频的时间一致性和处理效率。它支持从局部属性调整到形状变换等多种编辑类型,并可处理任意长度的视频。在多种编辑场景中,RAVE展现出优于现有方法的性能,为视频创作提供了高效灵活的解决方案。
dreamtalk - 音频驱动的表情丰富说话头像生成系统
DreamTalk生成说话人头像扩散模型音频驱动AI表情生成Github开源项目
DreamTalk是一个创新的音频驱动说话头像生成系统,采用扩散概率模型技术。该系统能生成高质量、表情丰富的说话头像视频,适应多种说话风格。DreamTalk在处理歌曲、多语言语音、噪声音频和非常规肖像等多样化输入时表现优异。通过结合扩散概率模型,DreamTalk实现了准确的唇形同步和生动的面部表情,为不同说话风格提供了灵活支持。
VideoElevator - 融合文本到图像技术提升AI视频生成质量
VideoElevator视频生成扩散模型文本到视频文本到图像Github开源项目
VideoElevator是一个开源的AI视频生成项目,通过结合文本到图像和文本到视频的扩散模型来提升生成视频的质量。该项目采用免训练、即插即用的方法,将视频生成过程分为时间运动细化和空间质量提升两个阶段。VideoElevator能在11GB以下显存的GPU上运行,支持多种扩散模型的协作,为高质量AI视频生成提供了新的解决方案。
3DTopia - 创新的文本到3D模型生成系统
3DTopia文本到3D生成扩散模型两阶段生成3D资产优化Github开源项目
3DTopia是一个创新的文本到3D生成模型,采用双阶段处理方法。第一阶段利用扩散模型快速生成候选项,第二阶段对选中的资产进行精细化处理。这种方法支持高质量3D内容的快速创建,实现了从文本描述到逼真3D模型的高效转换。3DTopia结合了先进的机器学习技术,为3D设计、游戏开发和虚拟现实等领域提供了新的可能性。
DiT-MoE - 16亿参数规模的稀疏化扩散Transformer模型
DiT-MoE扩散模型混合专家深度学习图像生成Github开源项目
DiT-MoE项目采用混合专家模型,将扩散Transformer扩展至16亿参数规模。作为扩散Transformer的稀疏版本,DiT-MoE在保持与密集网络相当性能的同时,实现了高效的推理。项目提供PyTorch实现、预训练权重和训练/采样代码,并包含专家路由分析和Hugging Face检查点。通过混合专家方法,DiT-MoE在模型扩展和推理优化方面展现出显著优势。
AnimateLCM - 基于解耦一致性学习的快速个性化动画生成模型
AnimateLCMAI动画生成一致性学习快速视频生成扩散模型Github开源项目
AnimateLCM项目通过解耦一致性学习技术,实现了个性化扩散模型和适配器的快速动画生成。该模型仅需4步推理即可生成高质量动画,显著提高了训练效率。项目支持文本、控制信号和图像到视频的多种生成方式,并提供多个预训练模型。AnimateLCM在保证输出质量的同时大幅提升了动画生成速度,为个性化视频创作提供了新的技术方案。
denoising-diffusion-pytorch - 生成模型新方法:Pytorch中的Denoising Diffusion
Denoising Diffusion Probabilistic ModelPytorch生成建模Langevin采样扩散模型Github开源项目
Denoising Diffusion Probabilistic Model在Pytorch中的实现,通过去噪得分匹配估计数据分布梯度,并使用Langevin采样生成样本。这种方法可能成为GANs的有力竞争者。项目支持多GPU训练,提供详细的安装和使用指南,是研究人员和开发者的高效工具,支持1D序列数据和图像数据的生成和训练。
相关文章
Diffree:最新模型实现文字指令修改图片!!这下修图变得更简单了
2024年08月03日
AnimateAnyone:动画新纪元,AI视频合成魔法
2024年08月03日
Playground v2:最新SD模型,超SDXL2.5倍!
2024年08月03日
ID-Animator:1小时前开源,单张人脸照片就可以生成高质量的特定人体视频
2024年08月03日
深入解析denoising-diffusion-pytorch:一个强大的去噪扩散概率模型实现
3 个月前
SkyPaint-AI-Diffusion: 基于 Stable Diffusion 的中英双语 AI 绘画模型
3 个月前
TokenFlow: 一种革命性的视频编辑框架
3 个月前
FateZero: 一种创新的零样本文本引导视频编辑技术
3 个月前
DiffMorpher:开源实现照片平滑转变,抖音特效快速落地
2024年08月02日