Sarashina2-7B项目介绍
项目背景
Sarashina2-7B是由SB Intuitions所训练的一种大型语言模型。这个模型旨在支持多种语言,包括日语和英语,帮助用户通过自然语言处理技术实现更智能化的文本生成任务。Sarashina2-7B能够用于广泛的应用场景,从日常对话到复杂文本生成。
如何使用
用户可以通过Python编程语言来使用Sarashina2-7B模型。以下是一个简单的代码示例,展示了如何加载和使用这个语言模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed
model = AutoModelForCausalLM.from_pretrained("sbintuitions/sarashina2-7b", torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("sbintuitions/sarashina2-7b")
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)
text = generator(
"おはようございます、今日の天気は",
max_length=30,
do_sample=True,
pad_token_id=tokenizer.pad_token_id,
num_return_sequences=3,
)
for t in text:
print(t)
在这个例子中,模型可以生成关于天气的多种可能性输出,从而展示其语言生成能力。
配置参数
Sarashina2-7B采用了Llama2架构,具有以下配置:
- 词汇表大小:102400
- 训练用词数:2.1万亿
- 位置类型:RoPE
- 层数:32
- 隐藏层维度:4096
- 注意力头数:32
除了7B版本,还有更大体量的13B和70B版本供不同需求的用户选择。
训练语料
为构建高质量的模型,Sarashina2-7B利用了从Common Crawl语料库提取的日语数据和来自SlimPajama的英语资料作为训练数据集。为了确保数据的干净和有效,使用了CCNet和HojiChar进行数据清洗。清洗后的日语数据包含约1万亿个词。
分词技术
模型使用了SentencePiece分词器,支持一元语法模型和字节回退,并不使用日语的预分词方法,这意味着用户可以直接输入原始的日语句子进行处理。
道德考量与限制
当前,sarashina2尚未经过指导调校,因此可能会生成无意义的句子或带有偏见的内容。开发者在使用前应当考虑进一步基于人类偏好和安全考虑进行调校,以改善模型的生成质量与安全性。
使用许可
该项目使用MIT开源许可证,用户可以根据许可证内容自由使用和分发。