Japanese StableLM Base Gamma 7B 项目介绍
模型概述
Japanese StableLM Base Gamma 7B 是一个拥有70亿参数的解码器语言模型,专注于最大化日语的语言建模性能和日语下游任务性能。该模型通过使用日语数据对英语语言模型 Mistral-7B-v0.1 进行持续预训练,以传递模型知识和能力至日语。
若您寻找能够执行指令的模型,请前往 Japanese Stable LM Instruct Gamma 7B。
若您在寻找体积较小的模型,请查看 Japanese StableLM-3B-4E1T Base。
使用方法
确保您使用的是 Transformers 4.34.0 或更新版本。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stablelm-base-gamma-7b")
model = AutoModelForCausalLM.from_pretrained(
"stabilityai/japanese-stablelm-base-gamma-7b",
torch_dtype="auto",
)
model.cuda()
inputs = tokenizer("AI で科学研究を加速するには、", return_tensors="pt").to("cuda")
tokens = model.generate(
**inputs,
max_new_tokens=64,
temperature=0.75,
top_p=0.95,
do_sample=True,
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))
模型详情
- 开发者: Stability AI
- 模型类型:
Japanese Stable LM Base Gamma 7B
是基于 Transformer 解码器架构的自回归语言模型。 - 语言: 日语
- 许可证: 本模型采用 Apache 许可证2.0 授权。
- 联系方式: 关于模型的疑问和评论,请加入 Stable Community Japan。关于 Stability AI 模型未来的公告、研究和活动信息,请关注 https://twitter.com/StabilityAI_JP。
模型架构
训练数据集
模型的持续预训练使用了大约1000亿个来自以下语料库的数据:
- 日语/英语维基百科
- 日语 mc4
- 日语 CC-100
- 日语 OSCAR
- SlimPajama,不包括 Books3 子集
使用与限制
预期用途
该模型旨在作为所有个人进行应用程序特定微调的基础模型使用,对商业用途没有严格限制。
限制和偏见
尽管在应用数据清洗过滤器后,预训练数据集中可能仍含有冒犯性或不当内容,这可能会反映在模型生成的文本中。在生产系统中使用这些模型时,建议用户保持适当警惕。请勿将模型用于可能对个人或团体造成伤害或困扰的任何应用程序。
致谢
模型的持续预训练由 Takuya Akiba 进行,数据准备和评估等其他方面由 Stability AI Japan 的语言团队负责,主要成员包括 Meng Lee、Fujiki Nakamura、Makoto Shing、Paul McCann 和 Naoki Orii。
该模型基于 Mistral AI 团队发布的 Mistral-7B-v0.1,我们感谢 Mistral AI 团队提供如此优秀的基础模型。
感谢 EleutherAI Polyglot-JA 团队帮助我们收集了大量日语预训练数据。Polyglot-JA 团队的成员包括项目负责人 Hyunwoong Ko、Fujiki Nakamura、Yunho Mo、Minji Jung、KeunSeok Im 和 Su-Kyeong Jang。
我们还要感谢 AI Novelist/Sta (Bit192, Inc.) 以及来自 Stable Community Japan 的众多贡献者,他们协助我们收集了大量高质量的日语文本数据用于模型训练。