fast-DiT

改进PyTorch实现的可扩展扩散模型转换器

DiT 扩散模型 Transformer 图像生成 PyTorch Github 开源项目

fast-DiT 项目提供了扩散模型转换器（DiT）的改进 PyTorch 实现。该项目包含预训练的类条件 DiT 模型、Hugging Face Space 和 Colab 笔记本，以及优化的训练脚本。通过采用梯度检查点、混合精度训练和 VAE 特征预提取等技术，显著提升了训练速度和内存效率。这一实现为研究人员和开发者提供了探索和应用扩散模型的有力工具。

访问官网

Github

Huggingface

介绍相关项目

distill-sd - 更小更快速的Stable Diffusion模型，依靠知识蒸馏实现高质量图像生成

GithubStable Diffusion开源项目模型压缩神经网络训练细节预训练检查点

基于知识蒸馏技术开发的小型高速Stable Diffusion模型。这些模型保留了完整版本的图像质量，同时大幅减小了体积和提升了速度。文档详细介绍了数据下载脚本、U-net训练方法和模型参数设置，还支持LoRA训练及从检查点恢复。提供清晰的使用指南和预训练模型，适配快速高效图像生成需求。

distrifuser - 高效分布式并行推理助力高分辨率图像生成

DistriFusionGPU加速Githubdiffusion模型并行推理开源项目高分辨率

DistriFusion是一种用于高分辨率扩散模型的分布式并行推理算法。该方法无需额外训练，通过多GPU协同工作加速推理过程，同时保持图像质量。其创新的补丁交互技术解决了传统方法的碎片化问题，在高分辨率图像生成任务中显著提升了性能。该项目已在CVPR 2024被评为亮点工作，并开源了相关代码。

Awesome-Diffusion-Transformers - 扩散模型与Transformer融合的前沿研究进展汇总

AI生成Diffusion TransformersGithub图像合成开源项目深度学习计算机视觉

本列表汇总了扩散模型与Transformer架构结合的最新研究进展，涵盖图像、视频、语音和3D等多个领域。每个项目均包含发表时间、会议信息、任务类型和资源链接。列表持续更新，为研究者和开发者提供便捷途径跟踪这一快速发展的领域动态。

ml-fastvit - 高效混合视觉Transformer模型用于图像分类

FastViTGithub图像分类开源项目模型性能结构重参数化视觉Transformer

FastViT是一种采用结构重参数化技术的混合视觉Transformer模型。该模型在ImageNet-1K数据集上实现了准确率和延迟的良好平衡,提供多个变体以适应不同应用场景。FastViT在iPhone 12 Pro上的基准测试显示出优秀的移动端性能。项目开源了预训练模型、训练评估代码和使用文档。

darts - 使用DARTS算法高效设计图像分类和语言建模架构

DARTSGithubPyTorch卷积架构图像分类开源项目语言建模

DARTS算法通过连续松弛和梯度下降，在架构空间中高效设计用于图像分类（CIFAR-10和ImageNet）和语言建模（Penn Treebank和WikiText-2）的高性能卷积和循环架构。只需一块GPU即可运行，提供预训练模型及详细的架构搜索和评估指南，支持自定义架构的可视化。

PixArt-alpha - 高效训练的Transformer扩散模型实现逼真文本到图像生成

GithubPixArt-αTransformer开源项目扩散模型文本生成图像高效训练

PixArt-α是一个基于Transformer的文本到图像扩散模型，其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型，仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计，PixArt-α在大幅降低训练成本的同时，保证了优秀的图像生成质量、艺术性和语义控制能力。

gpt-fast - PyTorch原生高效文本生成项目

GithubPyTorchgpt-fast开源项目性能优化文本生成模型量化

gpt-fast是一个基于PyTorch的高效Transformer文本生成项目,代码精简(<1000行Python),仅依赖PyTorch和sentencepiece。项目特点包括极低延迟、int8/int4量化、推测解码和张量并行,支持NVIDIA和AMD GPU。gpt-fast不是框架或库,而是展示原生PyTorch性能的示例。它支持LLaMA系列和Mixtral 8x7B等模型,提供详细基准测试和多种优化技术。该项目实现了高效的文本生成,展现了PyTorch在AI领域的强大性能。

FasterTransformer - 基于NVIDIA平台的高性能Transformer编解码器实现与调优

BERTFasterTransformerGPTGithubNVIDIATensorRT-LLM开源项目

FasterTransformer不仅支持多框架集成，还针对NVIDIA新一代GPU优化了编解码性能，极大提升了操作效率和处理速度。包含模型支持、性能对比及API演示的详细文档，有助于用户深入了解并有效使用FasterTransformer。

q-diffusion - 扩散模型的创新量化方法

GithubQ-Diffusion图像生成开源项目扩散模型深度学习量化

Q-Diffusion是一种针对扩散模型的后训练量化方法。它能将无条件扩散模型压缩至4位精度，同时保持接近原模型的性能。该方法通过时间步感知校准和分离捷径量化技术解决了扩散模型量化的主要难题。Q-Diffusion不仅适用于无条件图像生成，还可用于文本引导的图像生成，首次实现了4位权重下的高质量生成效果。这一技术为扩散模型的高效实现开辟了新途径。

swift-diffusion - Swift重新实现的Stable Diffusion模型

AI绘图GithubStable DiffusionSwift Diffusion开源项目深度学习移动设备优化

Swift重新实现的单文件Stable Diffusion模型，包含CLIP文本处理、UNet扩散和解码器等核心组件。项目致力于在移动设备上运行Stable Diffusion，通过内存优化和性能提升，实现与原始Python版本相当的效果。目前已完成主要模型移植，为移动AI应用开发提供新的可能。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号