Japanese-StableLM-Base-Beta-7B 项目介绍
模型简介
Japanese-StableLM-Base-Beta-7B 是一个基于 Llama-2-7b 的大型语言模型,采用了 70 亿参数,并针对多种日语数据进行了调优,以期在日语处理任务中达到最佳效果。针对任务指导型模型,可以参考 Japanese-StableLM-Instruct-Beta-7B。同时也有更大尺寸的 70b 模型可供选择,对于性能要求更高的应用,可以探讨使用 Japanese-StableLM-Base-JA_Vocab-Beta-7B 模型。
使用方法
要使用该模型,首先需要安装所需的依赖:
pip install -r requirements.txt
接着,可以通过以下代码片段进行文本生成:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "stabilityai/japanese-stablelm-base-beta-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True, device_map="auto")
prompt = "AI で科学研究を加速するには、".strip()
input_ids = tokenizer.encode(prompt, add_special_tokens=True, return_tensors="pt")
seed = 23
torch.manual_seed(seed)
tokens = model.generate(input_ids.to(device=model.device), max_new_tokens=128, temperature=0.99, top_p=0.95, do_sample=True)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
可以通过调整不同生成配置(例如 top_p
、repetition_penalty
)来为不同任务找到最佳设置。
模型细节
- 模型类型: Japanese-StableLM-Base-Beta-7B 是一种基于 Llama2 架构的自回归语言模型。
- 语言: 日语
- 许可协议: Llama2 社区许可协议
训练数据集
该模型经过继续预训练,总计使用大约 1000 亿个字符,这些字符来自多种数据集,包括:
- 日英维基百科
- Japanese mc4
- Japanese CC-100
- Japanese OSCAR
- SlimPajama(不包括 Books3 子集)
使用与限制
预期用途
该模型适用于所有个人用作应用程序特定微调的基础,可灵活用于商业用途。
限制与偏见
尽管数据清理已经尽力处理,但训练数据集中可能依然存在不当内容,这可能会反映在生成的文本中。建议用户在生产环境中使用时应保持谨慎,不应用于可能对个人或群体造成伤害或困扰的应用程序。
作者
这个模型由日本 Stability AI 的研发团队开发,开发由 Takuya Akiba 和 Meng Lee 共同领导。团队成员包括:
- Meng Lee
- Fujiki Nakamura
- Makoto Shing
- Paul McCann
- Takuya Akiba
- Naoki Orii
致谢
感谢 Meta Research 通过开放许可协议发布 Llama 2 供其他人使用。感谢 EleutherAI Polyglot-JA 团队在帮助收集大量日语预训练数据时的贡献,以及来自 Stable Community Japan 的贡献者参与高质量日语文本数据的收集工作。