japanese-stablelm-base-gamma-7b - 日语7B参数语言模型，增强语言建模与任务表现

Japanese StableLM Base Gamma 7B 项目介绍

模型概述

Japanese StableLM Base Gamma 7B 是一个拥有70亿参数的解码器语言模型，专注于最大化日语的语言建模性能和日语下游任务性能。该模型通过使用日语数据对英语语言模型 Mistral-7B-v0.1 进行持续预训练，以传递模型知识和能力至日语。

若您寻找能够执行指令的模型，请前往 Japanese Stable LM Instruct Gamma 7B。

若您在寻找体积较小的模型，请查看 Japanese StableLM-3B-4E1T Base。

使用方法

确保您使用的是 Transformers 4.34.0 或更新版本。

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("stabilityai/japanese-stablelm-base-gamma-7b")
model = AutoModelForCausalLM.from_pretrained(
  "stabilityai/japanese-stablelm-base-gamma-7b",
  torch_dtype="auto",
)
model.cuda()
inputs = tokenizer("AI で科学研究を加速するには、", return_tensors="pt").to("cuda")
tokens = model.generate(
  **inputs,
  max_new_tokens=64,
  temperature=0.75,
  top_p=0.95,
  do_sample=True,
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))

模型详情

开发者: Stability AI
模型类型: Japanese Stable LM Base Gamma 7B 是基于 Transformer 解码器架构的自回归语言模型。
语言: 日语
许可证: 本模型采用 Apache 许可证2.0 授权。
联系方式: 关于模型的疑问和评论，请加入 Stable Community Japan。关于 Stability AI 模型未来的公告、研究和活动信息，请关注 https://twitter.com/StabilityAI_JP。

模型架构

详情请参考 Mistral AI 的论文和发布博客。

训练数据集

模型的持续预训练使用了大约1000亿个来自以下语料库的数据：

使用与限制

预期用途

该模型旨在作为所有个人进行应用程序特定微调的基础模型使用，对商业用途没有严格限制。

限制和偏见

尽管在应用数据清洗过滤器后，预训练数据集中可能仍含有冒犯性或不当内容，这可能会反映在模型生成的文本中。在生产系统中使用这些模型时，建议用户保持适当警惕。请勿将模型用于可能对个人或团体造成伤害或困扰的任何应用程序。

致谢

模型的持续预训练由 Takuya Akiba 进行，数据准备和评估等其他方面由 Stability AI Japan 的语言团队负责，主要成员包括 Meng Lee、Fujiki Nakamura、Makoto Shing、Paul McCann 和 Naoki Orii。

该模型基于 Mistral AI 团队发布的 Mistral-7B-v0.1，我们感谢 Mistral AI 团队提供如此优秀的基础模型。

感谢 EleutherAI Polyglot-JA 团队帮助我们收集了大量日语预训练数据。Polyglot-JA 团队的成员包括项目负责人 Hyunwoong Ko、Fujiki Nakamura、Yunho Mo、Minji Jung、KeunSeok Im 和 Su-Kyeong Jang。

我们还要感谢 AI Novelist/Sta (Bit192, Inc.) 以及来自 Stable Community Japan 的众多贡献者，他们协助我们收集了大量高质量的日语文本数据用于模型训练。