项目介绍:OPT-6.7B-Erebus
项目概述
OPT-6.7B-Erebus是由Seeker先生研发的语言模型的第二代产品。它继续发展了最初Shinen模型的理念,并扩展了数据集的多样性。模型名称“Erebus”源自希腊神话,意为“黑暗”,与Shinen(意为“深渊”)的概念一脉相承。值得注意的是,这个模型专注于成人主题内容,因此不适宜未成年人使用。
训练数据
OPT-6.7B-Erebus所使用的数据集分为六个主要来源,全部围绕“成人”主题。具体数据集来源包括:
- Literotica:评分在4.5/5以上的作品。
- Sexstories:评分在90以上的作品。
- Dataset-G:包含私人X级故事合集。
- Doc's Lab:所有故事内容。
- Pike Dataset:被标记为“成人”评级的小说。
- SoFurry:包含各种动物主题的收藏。
模型的数据集标签使用格式[Genre: <用逗号分隔的类别列表>]
进行标记。
使用方式
用户可以通过一个文本生成的管道直接使用OPT-6.7B-Erebus模型。以下是一个生成不同文本序列的示例代码:
from transformers import pipeline
generator = pipeline('text-generation', model='KoboldAI/OPT-6.7B-Erebus')
generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)
局限性与偏见
由于自然语言处理技术的已知问题,该模型可能存在一些偏见因素,如性别、职业、种族和宗教等。需要特别指出的是,该模型具有很强的成人(NSFW)偏见。
授权许可
OPT-6.7B由Meta Platforms, Inc.按照OPT-175B许可证授权。版权所有。
引用信息
如果需要引用该模型的学术文章,可以使用以下BibTeX条目:
@misc{zhang2022opt,
title={OPT: Open Pre-trained Transformer Language Models},
author={Susan Zhang and Stephen Roller and Naman Goyal and Mikel Artetxe and Moya Chen and Shuohui Chen and Christopher Dewan and Mona Diab and Xian Li and Xi Victoria Lin and Todor Mihaylov and Myle Ott and Sam Shleifer and Kurt Shuster and Daniel Simig and Punit Singh Koura and Anjali Sridhar and Tianlu Wang and Luke Zettlemoyer},
year={2022},
eprint={2205.01068},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
OPT-6.7B-Erebus项目展现了在成人内容处理上的技术创新,但用户在使用过程中需注意内容适用性,尤其是在涉及未成年人时应加以限制。