状态: 存档(代码按原样提供,不会有更新)
gpt-2
来自论文"语言模型是无监督的多任务学习器"的代码和模型。
你可以在我们的原始博客文章、6个月后的跟进文章和最终文章中了解GPT-2及其分阶段发布的情况。
我们还发布了一个数据集供研究人员研究其行为。
* 注意,由于一个错误,我们原始的参数计数是错误的(在我们之前的博客文章和论文中)。因此你可能看到小型模型被称为117M,中型模型被称为345M。
使用
这个仓库旨在为研究人员和工程师提供一个实验GPT-2的起点。
有关基本信息,请参阅我们的模型卡片。
一些注意事项
- GPT-2模型的鲁棒性和最坏情况行为尚未得到充分理解。与任何机器学习模型一样,请仔细评估GPT-2是否适合你的用例,特别是在没有微调或在安全关键应用中使用时,可靠性很重要。
- 我们的GPT-2模型训练所用的数据集包含许多带有偏见和事实错误的文本,因此GPT-2模型也可能存在偏见和不准确。
- 为避免样本被误认为是人工撰写的,我们建议在广泛传播之前明确标记样本为合成内容。我们的模型在细微之处常常不连贯或不准确,这需要人类仔细阅读才能注意到。
与我们合作
如果你正在进行有趣的GPT-2研究或应用开发,请告诉我们!我们特别感兴趣听取并可能与那些正在研究以下内容的人合作:
- 潜在的恶意使用案例及其防御措施(例如合成文本的可检测性)
- 模型中固有的问题内容(如偏见)的程度及有效的缓解措施
开发
贡献者
引用
请使用以下bibtex条目:
@article{radford2019language,
title={Language Models are Unsupervised Multitask Learners},
author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
year={2019}
}
未来工作
我们可能会发布用于评估模型在各种基准测试上表现的代码。
我们仍在考虑发布更大的模型。