GALACTICA-1.3B 项目介绍
项目背景
GALACTICA-1.3B 是由 Meta AI 的 Papers with Code 团队开发的一款大型科学语言模型,旨在利用自然语言模型来进行科学知识的自动组织。这款模型是基于大规模的科学语料库训练的,专为完成各种科学任务而设计,例如引用预测、科学问答、数学推理、文档生成、分子属性预测和实体抽取等。
模型详细信息
GALACTICA 模型具备不同的参数规模,从 125M 到 120B 不等。其中,1.3B 参数的模型被称为 "base" 版本。其架构采用了变压器(Transformer)模型的解码器结构,并在此基础上做了一些改进。
参数规模总结
- mini: 125M 参数
- base: 1.3B 参数
- standard: 6.7B 参数
- large: 30B 参数
- huge: 120B 参数
发行日期
GALACTICA-1.3B 的发行日期为 2022 年 11 月。
模型用途
该模型主要面向研究语言模型在科学领域应用的研究人员,同时也适合开发者用来开发科学工具。需要注意的是,由于语言模型可能存在输出错误信息的风险(称为幻觉),因此在未经充分测试和验证的情况下,建议避免将其用于生产环境。
训练数据
GALACTICA 模型的训练数据包含了 1060 亿个开源科学文本和数据标记,这些数据包括论文、教科书、科学网站、百科全书、参考资料和知识库等。
模型使用方法
以下是使用 transformers
库中模型的一些示例代码:
在 CPU 上运行模型
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在 GPU 上运行模型
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
性能与局限
GALACTICA 在多个知识探测、推理和知识密集型科学任务上表现优于一些现有的语言模型。然而,该模型也存在一定的局限性,例如对某些不太流行的科学概念可能产生幻觉。即便如此,模型在多种基准测试上展现出的低毒性率相较其他大规模语言模型更具优势,但仍然存在一些偏见问题。
更广泛的影响
GALACTICA 可以被用作发现学术文献的新手段,或用于特定领域如数学、生物学和化学的应用开发。预计会有许多新的科学工具基于类似 GALACTICA 的大型语言模型构建。
我们鼓励研究人员探索这些模型的有益和创新使用案例,同时关注现有语言模型的常见问题,如幻觉和可能带来的偏见。