OPT-2.7B-Erebus项目介绍
项目背景
OPT-2.7B-Erebus是由Seeker先生创建的第二代模型,旨在对“成人”主题进行探索。这个模型的名字“Erebus”来源于希腊神话中的“黑暗”,与其前辈“Shinen”或“深渊”相呼应。这个模型拥有出色的数据集,并且以其特定的应用场景著称。目前,KoboldAI社区是负责这一项目的联系点。
数据集介绍
OPT-2.7B-Erebus的模型训练数据集源自六个不同的来源,所有内容均与“成人”主题相关。这些来源包括:
- Literotica:选择评分4.5/5及以上的内容。
- Sexstories:选择评分90及以上的内容。
- Dataset-G:这是一个私有的X级故事数据集。
- Doc's Lab:涵盖所有故事内容。
- Pike Dataset:包含成人评级的小说。
- SoFurry:收录各种动物主题内容。
这些数据集通过标签进行标识,使用形式如[Genre: <逗号分隔的类型列表>]
。
使用方法
用户可以通过文本生成管道直接使用此模型。使用示例如下:
from transformers import pipeline
generator = pipeline('text-generation', model='KoboldAI/OPT-2.7B-Erebus')
generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)
每次运行时,上述示例将会生成不同的文本序列。
局限性和偏见
该模型可能存在一些与自然语言处理技术相关的已知问题,比如性别、职业、种族和宗教偏见。需要特别注意的是,这个模型具有很强的NSFW(不适合工作场所)偏见,因此不适用于未成年人。
授权许可
OPT-2.7B-Erebus模型在OPT-175B许可下发布,该版权归Meta Platforms, Inc.所有。
此项目由于其数据集和生成内容的特定性,需要潜在用户谨慎使用,尤为注意使用环境和对象。