pythia-6.9b-deduped - 面向大规模语言模型研究的开源模型系列

Pythia-6.9B-deduped项目介绍

背景介绍

Pythia-6.9B-deduped是EleutherAI开发的一个大型语言模型，也是Pythia Scaling Suite的一部分。其主要目的是为科学研究提供支持，特别是针对大语言模型的可解释性研究。这一系列模型包括八种不同规模——从70M到12B不等，每种规模又分为两种模型：一种在未去重的Pile数据集上训练，另一种则在去重后训练。所有模型的数据和训练顺序保持一致。

项目详情

开发者: EleutherAI
模型类型: 基于Transformer的语言模型
语言: 英语
许可协议: Apache 2.0
开发工具: GPT-NeoX库
学习数据集: EleutherAI/the_pile_deduplicated
联系人: EleutherAI Discord的#release-discussion频道，或通过邮箱contact@eleuther.ai
详细信息: 更多信息及如何使用可查看Pythia的GitHub仓库

使用方法和限制

预期用途

Pythia主要用于研究大型语言模型的行为、功能和限制，提供一个受控的实验环境。用户可以进一步微调和适配Pythia-6.9B-deduped以部署使用，只要符合Apache 2.0许可协议。该模型支持Hugging Face的Transformers库。

超出预期的使用

Pythia套件并非为直接部署或人机交互而设计。它仅支持英文，因此不适合翻译或生成其他语言文本。Pythia-6.9B-deduped并未被微调用于下游应用，例如商业聊天机器人。

局限性及偏见

作为语言模型，Pythia的核心功能是预测下一个词元，未必会生成最“准确”的文本。其训练数据包含一些冒犯性内容和偏见，生成的文本可能会出现社会上不可接受的内容。因此，不要完全依赖Pythia-6.9B-deduped来生成事实性准确的输出。

快速开始

使用Pythia模型可以通过以下代码实现：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

训练详情

Pythia-6.9B-deduped是在全球去重后的Pile数据集上训练的。该模型在训练中看到了2998亿个词元，每个模型保存了143个检查点。所有模型在相同的批次大小（2M词元）下训练，共进行了143000步骤。

评估

所有16个Pythia模型均通过LM Evaluation Harness进行评估。相关评估结果可通过GitHub仓库获取。

更名及参数说明

2023年1月，Pythia模型进行了重命名，并基于总参数量进行标记。70M即代表模型总参数量约为70M。有关详细信息，可查看GitHub上的文档。

总的来说，Pythia-6.9B-deduped为研究者提供了一个强大的工具，以探索和理解大语言模型的复杂性质和潜在偏见。