项目介绍:Stable Diffusion 3.5 Medium
项目概述
Stable Diffusion 3.5 Medium 是由 Stability AI 开发的一种名为多模态扩散变换器(Multimodal Diffusion Transformer,简称 MMDiT-X)的文本到图像生成模型。该模型在图像质量、排版、复杂提示理解和资源效率方面有显著提升。通过输入文本提示,该模型可以生成相应的图像。
模型描述
该模型属于 MMDiT-X 文本到图像生成模型类型,它利用了三种预训练的文本编码器,并在训练过程中采用 QK 归一化来提高训练稳定性。在前12层变换器中使用了双重注意力块。其显著特点包括:
- 多分辨率生成:通过引入自注意模块,增强了多分辨率的生成能力和整体的图像一致性。
- QK 归一化:改善训练的稳定性。
- 混合分辨率训练:采取了逐步提升分辨率的训练策略,从256到1440逐步上升。通过随机裁剪增强模型在不同分辨率和纵横比下的鲁棒性。
许可信息
模型来源
可以通过多种方式本地或自托管使用该模型,包括使用 ComfyUI 的节点化界面推断、Huggingface 的 diffusers 库,或直接从 GitHub 获取。
使用与限制
- 模型可以处理较长的提示,但当使用超过256个 T5 tokens 时,可能会在生成边缘出现伪影。因此,建议在发现明显伪影时缩短提示。
- 中型模型与大型模型在训练数据分布上有所不同,因此对同一提示的响应可能不同。
安全性
Stability AI 采用安全设计和负责任的 AI 部署方法,确保模型开发从早期阶段开始就关注完整性问题。尽管已经实施了一些安全减缓措施来减少特定风险,所有开发者和用户仍需根据具体的使用场景进行额外的安全测试,并应用额外的减缓措施。
任何使用稳定扩散 3.5 的用户必须遵守 可接受使用政策。如有安全问题,可通过以下途径联系:
- 安全问题:safety@stability.ai
- 安全性问题:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可和一般信息:许可链接
- 企业许可:联系企业许可
Stable Diffusion 3.5 Medium 的推出为图像生成领域提供了更高质量和更高效率的解决方案,期待着在各种艺术、教育及研究应用中展现出它的潜力。