项目概述
DanTagGen-beta是一个基于人工智能的图像标签生成器,其灵感来源于p1atdev的dart项目。这个项目采用了不同的架构、数据集、格式和训练策略,专门用于生成Danbooru风格的图像标签。
核心特点
DanTagGen-beta相比于alpha版本有了显著提升。它使用了更大的数据集(530万条数据)和更大的批处理规模,在提供少量信息的情况下也能展现出更稳定和更优秀的生成能力。
技术实现
该项目采用了基于LLaMA架构的400M参数模型(也被称为NanoLLaMA)。模型支持在任何LLaMA推理接口中使用,并提供了FP16 gguf模型以及量化后的8位/6位gguf模型版本。建议使用llama.cpp或llama-cpp-python来运行模型,这样可以获得较高的运行效率。
数据处理与训练
项目使用HakuBooru从danbooru数据库中导出数据,通过收藏数量百分位数对不同评级的数据进行筛选。beta版本使用了约530万条数据进行训练,经过10轮迭代,累计处理了约6-12B个标记。
使用方式
模型接受标准化的输入格式,包含以下字段:
- 评级(rating)
- 艺术家(artist)
- 角色(characters)
- 版权(copyrights)
- 宽高比(aspect ratio)
- 目标(target)
- 通用标签(general)
实际效果
通过实际案例测试,DanTagGen-beta在角色特征捕捉、细节丰富度和场景构图方面都表现出色。比如在生成赛马娘角色Vivlos和Daring Tact的标签时,beta版本能够准确把握角色特征,并提供更丰富的细节描述和更好的场景构建。
未来展望
项目团队正在开发Gradio用户界面,方便其他开发者调用API构建不同的应用。同时,还计划开发StableDiffusion的WebUI插件,进一步扩展项目的应用范围。
使用价值
这个项目对于AI艺术创作者和图像生成爱好者来说特别有价值,可以帮助他们更准确地生成符合预期的图像标签,提高AI作图的质量和效率。特别是在需要细致的角色特征和场景描述时,DanTagGen-beta能提供专业而全面的标签建议。