项目概述
DanTagGen-delta-rev2是一个基于人工智能的标签生成器,专门用于生成Danbooru风格的图像标签。该项目受到p1atdev的dart项目启发,但在架构设计、数据集选择、格式定义和训练策略上都进行了创新性改进。
技术特点
该项目采用了400M参数的LLaMA架构(也称为NanoLLaMA),从零开始训练。由于使用了LLaMA架构,理论上可以在任何支持LLaMA的推理接口上运行。项目还提供了FP16 gguf模型以及量化后的8bit/6bit gguf模型,推荐使用llama.cpp或llama-cpp-python来运行,可以获得较快的运行速度。
版本演进
项目经历了多个版本的迭代优化:
- alpha版本:使用2M数据集预训练,批次大小较小,能力有限
- beta版本:扩大到5.3M数据集,增加批次大小,稳定性更好,且能更好地处理少量输入信息
- delta版本:使用7.2M数据集,进一步增加批次大小,虽略有欠拟合但多样性更好,并引入了质量标签
- delta-rev2版本:在delta版本基础上额外训练2个周期,使用相同数据集
数据集与训练
该模型使用HakuPhi训练器进行训练,在7.2M数据规模上总共训练了12个周期,累计处理了约10-15B个标记。训练数据来自HakuBooru导出的danbooru sqlite数据库,通过各评级的收藏数百分位进行筛选(如top 25%得到2M数据,top 75%得到5.3M数据)。
使用方式
模型接受包含quality、rating、artist、characters等多个字段的结构化输入,可以生成符合Danbooru风格的图像标签。用户可以指定目标长度(short/long),以及提供初始的general标签作为提示。
实用工具
为方便用户使用,项目提供了多个实用工具:
- Hugging Face在线演示空间
- 与Kohaku XL Epsilon模型集成的演示
- Stable Diffusion WebUI扩展
- ComfyUI节点支持
应用场景
这个项目特别适合需要生成Danbooru风格标签的场景,例如:
- AI艺术创作辅助
- 图像数据集标注
- 动漫图像描述生成
- 艺术创作参考标签生成