项目概述
Animagine XL 3.0是一款先进的开源动漫风格文本生成图像模型。它基于Stable Diffusion XL开发,是Animagine XL 2.0的最新升级版本。该模型专注于概念学习而非单纯的美学风格,在手部解剖、标签排序和动漫概念理解等方面都有显著提升。
主要特点
模型架构
- 基于Stable Diffusion XL架构
- 由Linaqruf团队开发
- 采用FAIPL-1.0-SD开源许可证
- 支持多种分辨率和图像比例
核心功能
- 高质量的动漫风格图像生成
- 改进的手部解剖结构绘制
- 优化的标签排序系统
- 增强的动漫概念理解能力
使用指南
推荐配置
- 采用5-7的引导系数(CFG Scale)
- 使用30步以下的采样步数
- 选择Euler Ancestral (Euler a)作为采样器
- 支持多种图像分辨率,从640x1536到1536x640不等
标签系统
推荐的标签顺序:
- 角色数量标签(1girl/1boy)
- 角色名称
- 作品来源
- 其他描述性标签
训练细节
训练规模
- 使用2块A100 80GB显卡
- 训练时长21天,超过500个GPU小时
- 训练数据集包含超过120万张图像
训练阶段
-
基础阶段:
- 特征对齐:使用120万张图像
- UNet优化:使用2500张精选数据集
-
精选阶段:
- 美学调优:使用3500张高质量数据集
局限性
已知限制
- 偏重概念学习而非艺术风格
- 不适合生成写实风格图像
- 复杂姿势可能存在解剖结构问题
- 数据集覆盖范围有限
- 需要结构化提示词以获得最佳效果
实际应用
访问方式
- 支持Gradio Web界面
- 提供Google Colab集成
- 可通过Diffusers库安装使用
质量控制
- 提供多种质量调节标签
- 支持分级系统(general到explicit)
- 包含年代标签控制生成风格
社区支持
该项目获得了广泛的社区支持,包括:
- Cagliostro Lab团队协作
- Kohya SS提供训练脚本支持
- Camenduru服务器社区提供技术支持
- 多位资深协作者参与开发维护