Project Icon

dart-v1-sft

优化Danbooru标注生成的Transformer模型

Dart是一款经过微调的Transformer模型,专注于Danbooru标注生成,具备良好的效率和准确性。借助Hugging Face的Transformers和Optimum库,该模型支持ONNX等多种高性能推理工具。Dart旨在为开发者提供便捷的标注生成功能,基于2020年以后的最新数据集进行训练,确保生成结果的时效性和相关性。

项目介绍:Dart v1 SFT

概述

Dart v1 SFT 是一款经过精细调整的 Danbooru 标签转换模型,旨在为图像生成 Danbooru 标签。该模型的基础版本是 p1atdev/dart-v1-base,经过进一步的优化和训练,能够更好地识别和生成 Danbooru 标签。Dart v1 SFT 使用 Apache-2.0 许可证进行发布。

使用方法

使用 AutoModel

要使用 Dart v1 SFT 模型,首先需要安装 Hugging Face 的 Transformers 库:

pip install -U transformers

接着,在 Python 中导入所需的库并载入模型:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

MODEL_NAME = "p1atdev/dart-v1-sft"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype=torch.bfloat16)

prompt = "<|bos|><rating>rating:sfw, rating:general</rating><copyright>original</copyright><character></character><general><|long|>1girl<|input_end|>"
inputs = tokenizer(prompt, return_tensors="pt").input_ids

with torch.no_grad():
  outputs = model.generate(inputs, generation_config=model.generation_config)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

这一过程将生成用于描述图像内容的 Danbooru 标签。这些标签由模型在特定输入格式下预测并自动排序。

提示格式指南

由于模型训练时使用了特殊的输入格式模板,用户在使用时需要按照固定格式进行输入。完整的输入格式如下:

  • <|bos|>: 开始标记
  • 各类标签和排序方式包括评分、版权、角色及一般性标签
  • <|input_end|>标记表示输入结束

例如:

<|bos|><rating>rating:sfw, rating:general</rating><copyright>vocaloid</copyright><character>hatsune miku</character><general><|long|>solo, 1girl, very long hair<|input_end|>blue hair, cowboy shot, ...</general><|eos|>

技术细节

模型架构

Dart v1 SFT 模型基于OPT(Open Pretrained Transformer)架构,但位置嵌入没有经过训练。该模型由 Plat 开发,专注于生成 Danbooru 标签。

训练与优化

模型训练使用了 isek-ai/danbooru-tags-2023 数据集,并采用 🤗 transformers 的训练器进行训练。重要的训练步骤包括:

  1. 预处理数据,移除不必要的或不常用的标签。
  2. 确保输入顺序的严格性,优化标签生成质量。

硬件与软件

训练在 RTX 3070 Ti 硬件上完成,使用了多种开源软件库进行数据处理和模型优化,如 🤗 Datasets, Transformers 和 Optimum。

评估与局限

目前,Dart v1 SFT 尚未经过正式评估,因此可能存在一定的偏差或局限。在使用该模型时,需注意其无法支持自然语言输入,并且仅适用于特定格式的提示。

如需了解更多信息,可以访问 Hugging Face 上的 demo,体验其功能与表现。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号