BeagSake-7B项目介绍
BeagSake-7B是一个由两个模型合并而成的人工智能模型,使用了一种称为LazyMergekit的技术来实现合并。这两个模型分别是shadowml/BeagleSempra-7B和shadowml/WestBeagle-7B。
模型配置
BeagSake-7B使用了一种特殊的方法进行模型层的合并,这种方法称为SLERP,主要涉及以下配置:
- 基础模型选择为shadowml/BeagleSempra-7B。
- 模型层的选择范围都是从第0层到第32层。
- 权重过滤采用不同的参数值,这些由
self_attn
和mlp
参数定义。 - 数据类型使用的是bfloat16。
使用方法
使用BeagSake-7B模型很简单,通过transformers库可以实现。下面是一个简单的使用例子:
- 安装必要的Python库:
!pip install -qU transformers accelerate
- 使用Python代码实现文本生成:
from transformers import AutoTokenizer
import transformers
import torch
model = "shadowml/BeagSake-7B"
messages = [{"role": "user", "content": "What is a large language model?"}]
tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
在重要基准测试中的表现
BeagSake-7B在多个文本生成任务中的表现,如下所示:
- AI2推理挑战(25样本):准确率为72.44%
- HellaSwag(10样本):准确率为88.39%
- MMLU(5样本):准确率为65.23%
- TruthfulQA(0样本):得分为72.27
- Winogrande(5样本):准确率为82.16%
- GSM8k(5样本):准确率为71.80%
这些结果显示,BeagSake-7B在处理各种文本生成任务时具有出色的表现。在Open LLM Leaderboard上,可以找到更多的详细结果,帮助更好地了解该模型的性能。
项目总结
BeagSake-7B作为一个合并后的模型,凭借其新颖的合并方法和出色的性能,在多个基准测试中表现突出,为研究人员和开发者提供了一个强大的文本生成工具。通过简单的使用方法和丰富的功能,这个模型在未来的自然语言处理任务中具有广泛的应用潜力。