
dalle-mini
开源文本生成图像AI模型
DALL·E Mini是一个开源的文本生成图像AI项 目,基于OpenAI的DALL·E模型。该项目能根据文本描述生成相应图像,用户可通过craiyon.com体验。DALL·E Mini提供了技术报告、开发文档和训练代码,便于研究人员进行深入研究和二次开发。项目由多位贡献者合作完成,获得了Google TPU Research Cloud等多方支持。
DALL·E Mini
<a href="https://www.craiyon.com/"><img src="https://www.craiyon.com/thumbnail.png" width="300"></a>
如何使用?
你可以在 🖍️ craiyon 上使用该模型
它是如何工作的?
请参考我们的报告:
开发
安装依赖
仅用于推理,请使用 pip install dalle-mini
。
对于开发,克隆仓库并使用 pip install -e ".[dev]"
。
在提交PR之前,请使用 make style
检查代码风格。
你可以通过我们的推理管道笔记本
逐步试验管道
DALL·E mini的训练
如果需要进行超参数搜索,你还可以调整扫描配置文件。
常见问题
在哪里可以找到最新的模型?
训练好的模型位于 🤗 Model Hub:
- VQGAN-f16-16384 用于编码/解码图像
- DALL·E mini 或 DALL·E mega 用于从文本提示生成图像
标志来自哪里?
"鳄梨形状的扶手椅"是OpenAI发布DALL·E时用来展示模型能力的。成功预测这个提示对我们来说是一个重要的里程碑。
贡献
加入 LAION Discord 社区。 我们欢迎任何形式的贡献,无论是报告问题、提出修复/改进建议,还是用有趣的提示测试模型!
你也可以使用社区中这些优秀的项目:
-
使用 DALL-E Playground 仓库 创建你自己的应用(感谢 Sahar)
-
尝试 DALL·E Flow 项目,用于人机交互工作流中的生成、扩散和放大(感谢 Han Xiao)
-
在 Replicate 上运行,可在浏览器中使用或通过API调用
致谢
- 🤗 Hugging Face 组织的 FLAX/JAX 社区周
- Google TPU Research Cloud (TRC) 项目 提供的计算资源
- Weights & Biases 提供的实验跟踪和模型管理基础设施
作者与贡献者
DALL·E mini 最初由以下人员开发:
- Boris Dayma
- Suraj Patil
- Pedro Cuenca
- Khalid Saifullah
- Tanishq Abraham
- Phúc Lê Khắc
- Luke Melas
- Ritobrata Ghosh
非常感谢帮助改进它的人们:
- DALLE-Pytorch 和 EleutherAI 社区进行测试和交流有趣想法
- Rohan Anil 添加了分布式Shampoo优化器并始终给出很好的建议
- Phil Wang 提供了许多cool的transformer变体实现,并通过 x-transformers 提供有趣见解
- Katherine Crowson 的 super conditioning
- Gradio团队 为我们的应用制作了令人惊叹的UI
引用 DALL·E mini
如果你在研究中发现 DALL·E mini 有用或想要引用它,请使用以下 BibTeX 条目。
@misc{Dayma_DALL·E_Mini_2021, author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata}, doi = {10.5281/zenodo.5146400}, month = {7}, title = {DALL·E Mini}, url = {https://github.com/borisdayma/dalle-mini}, year = {2021} }
参考文献
原始 DALL·E 来自 "Zero-Shot Text-to-Image Generation",图像量化来自 "Learning Transferable Visual Models From Natural Language Supervision"。
图像编码器来自 "Taming Transformers for High-Resolution Image Synthesis"。
基于 "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension" 的序列到序列模型,实现了几个变体:
- "GLU Variants Improve Transformer"
- "Deepnet: Scaling Transformers to 1,000 Layers"
- "NormFormer: Improved Transformer Pretraining with Extra Normalization"
- "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"
- "CogView: Mastering Text-to-Image Generation via Transformers"
- "Root Mean Square Layer Normalization"
- "Sinkformers: Transformers with Doubly Stochastic Attention"
- "Foundation Transformers
主要优化器(分布式Shampoo)来自 "Scalable Second Order Optimization for Deep Learning"。
引用
@misc{ title={Zero-Shot Text-to-Image Generation}, author={Aditya Ramesh and Mikhail Pavlov and Gabriel Goh and Scott Gray and Chelsea Voss and Alec Radford and Mark Chen and Ilya Sutskever}, year={2021}, eprint={2102.12092}, archivePrefix={arXiv}, primaryClass={cs.CV} }
@misc{ title={从自然语言监督中学习可迁移的视觉模型}, author={Alec Radford 和 Jong Wook Kim 和 Chris Hallacy 和 Aditya Ramesh 和 Gabriel Goh 和 Sandhini Agarwal 和 Girish Sastry 和 Amanda Askell 和 Pamela Mishkin 和 Jack Clark 和 Gretchen Krueger 和 Ilya Sutskever}, year={2021}, eprint={2103.00020}, archivePrefix={arXiv}, primaryClass={cs.CV} }
@misc{ title={驯服 Transformer 用于高分辨率图像合成}, author={Patrick Esser 和 Robin Rombach 和 Björn Ommer}, year={2021}, eprint={2012.09841}, archivePrefix={arXiv}, primaryClass={cs.CV} }
@misc{ title={BART: 用于自然语言生成、翻译和理解的去噪序列到序列预训练}, author={Mike Lewis 和 Yinhan Liu 和 Naman Goyal 和 Marjan Ghazvininejad 和 Abdelrahman Mohamed 和 Omer Levy 和 Ves Stoyanov 和 Luke Zettlemoyer}, year={2019}, eprint={1910.13461}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@misc{ title={深度学习的可扩展二阶优化}, author={Rohan Anil 和 Vineet Gupta 和 Tomer Koren 和 Kevin Regan 和 Yoram Singer}, year={2021}, eprint={2002.09018}, archivePrefix={arXiv}, primaryClass={cs.LG} }
@misc{ title={GLU 变体改进 Transformer}, author={Noam Shazeer}, year={2020}, url={https://arxiv.org/abs/2002.05202} }
@misc{ title={DeepNet: 将 Transformer 扩展到 1,000 层}, author={王宏宇 和 马树铭 和 董黎 和 黄少汉 和 张东东 和 魏福}, year={2022}, eprint={2203.00555} archivePrefix={arXiv}, primaryClass={cs.LG} }
@misc{ title={NormFormer: 通过额外归一化改进 Transformer 预训练}, author={Sam Shleifer 和 Jason Weston 和 Myle Ott}, year={2021}, eprint={2110.09456}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@inproceedings{ title={Swin Transformer V2: 扩展容量和分辨率}, author={刘泽 和 胡翰 和 林雨桐 和 姚祝良 和 谢震达 和 魏毅轩 和 宁佳 和 曹越 和 张政 和 董黎 和 魏福 和 郭百宁}, booktitle={国际计算机视觉与模式识别会议 (CVPR)}, year={2022} }
@misc{ title = {CogView: 通过 Transformer 掌握文本到图像生成}, author = {丁明 和 杨卓艺 和 洪文怡 和 郑文迪 和 周畅 和 尹达 和 林俊阳 和 邹旭 和 邵周 和 杨宏侠 和 唐杰}, year = {2021}, eprint = {2105.13290}, archivePrefix = {arXiv}, primaryClass = {cs.CV} }
@misc{ title = {均方根层归一化}, author = {张彪 和 Rico Sennrich}, year = {2019}, eprint = {1910.07467}, archivePrefix = {arXiv}, primaryClass = {cs.LG} }
@misc{ title = {Sinkformers: 具有双重随机注意力的 Transformer}, url = {https://arxiv.org/abs/2110.11773}, author = {Sander, Michael E. 和 Ablin, Pierre 和 Blondel, Mathieu 和 Peyré, Gabriel}, publisher = {arXiv}, year = {2021}, }
@misc{ title = {深度网络中的平滑激活和可重复性}, url = {https://arxiv.org/abs/2010.09931}, author = {Shamir, Gil I. 和 Lin, Dong 和 Coviello, Lorenzo}, publisher = {arXiv}, year = {2020}, }
@misc{ title = {基础 Transformer}, url = {https://arxiv.org/abs/2210.06423}, author = {王宏宇 和 马树铭 和 黄少汉 和 董黎 和 王文会 和 彭志良 和 吴昱 和 Bajaj, Payal 和 Singhal, Saksham 和 Benhaim, Alon 和 Patra, Barun 和 刘准 和 Chaudhary, Vishrav 和 宋霞 和 魏福}, publisher = {arXiv}, year = {2022}, }
编辑推荐精选


Manus
全面超越基准的 AI Agent助手
Manus 是一款通用人工智能代理平台,能够将您的创意和想法迅速转化为实际成果。无论是定制旅行规划、深入的数据分析,还是教育支持与商业决策,Manus 都能高效整合信息,提供精准解决方案。它以直观的交互体验和领先的技术,为用户开启了一个智慧驱动、轻松高效的新时代,让每个灵感都能得到完美 落地。


飞书知识问答
飞书官方推出的AI知识库 上传word pdf即可部署AI私有知识库
基于DeepSeek R1大模型构建的知识管理系统,支持PDF、Word、PPT等常见文档格式解析,实现云端与本地数据的双向同步。系统具备实时网络检索能力,可自动关联外部信息源,通过语义理解技术处理结构化与非结构化数据。免费版本提供基础知识库搭建功能,适用于企业文档管理和个人学习资料整理场景。


Trae
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

酷表ChatExcel
大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


DeepEP
DeepSeek开源的专家并行通信优化框架
DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时兼容主流深度学习框架的通信接口。


DeepSeek
全球领先开源大模型,高效智能助手
DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。


KnowS
AI医学搜索引擎 整合4000万+实时更新的全球医学文献
医学领域专用 搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。


Windsurf Wave 3
Windsurf Editor推出第三次重大更新Wave 3
新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。


腾讯元宝
腾讯自研的混元大模型AI助手
腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。


Grok3
埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型
Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号