项目介绍:stablelm-2-1_6b-chat
模型概述
StableLM 2 Chat 1.6B
是一个由Stability AI开发的、拥有16亿参数的语言模型。这个模型以HuggingFaceH4的Zephyr 7B训练流程为灵感,进行了指令微调。在训练过程中,它结合使用了公共数据集和合成数据集,并运用了直接偏好优化方法。该模型专为聊天应用而设计,提供自动生成语言的能力。
使用方法
为了使用StableLM 2 1.6B Chat
,开发者可以通过以下Python代码示例来加载模型并生产响应:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('stabilityai/stablelm-2-1_6b-chat')
model = AutoModelForCausalLM.from_pretrained(
'stabilityai/stablelm-2-1_6b-chat',
device_map="auto",
)
prompt = [{'role': 'user', 'content': 'Implement snake game using pygame'}]
inputs = tokenizer.apply_chat_template(
prompt,
add_generation_prompt=True,
return_tensors='pt'
)
tokens = model.generate(
inputs.to(model.device),
max_new_tokens=100,
temperature=0.7,
do_sample=True
)
output = tokenizer.decode(tokens[:, inputs.shape[-1]:][0], skip_special_tokens=False)
print(output)
模型细节
- 开发者: Stability AI
- 模型类型: 基于变压器解码器架构的自回归语言模型。
- 语言: 英文
- 相关文献: Stable LM 2 1.6B 技术报告
- 图书馆: Alignment Handbook
- 从模型微调: Stable LM 2 1.6B 模型
- 许可证: 用于非商业研究的StabilityAI许可
- 联系方式: 对于模型的问题和评论,请发送邮件至
lm@stability.ai
训练数据集
该模型的训练建立在一个组合的数据集上,这些数据集在HuggingFace Hub上公开获取。主要分为两类:
-
SFT数据集:
- HuggingFaceH4/ultrachat_200k
- meta-math/MetaMathQA
- WizardLM/WizardLM_evol_instruct_V2_196k
- Open-Orca/SlimOrca
- openchat/openchat_sharegpt4_dataset
- LDJnr/Capybara
- hkust-nlp/deita-10k-v0
- teknium/OpenHermes-2.5
-
偏好数据集:
- allenai/ultrafeedback_binarized_cleaned
- Intel/orca_dpo_pairs
- argilla/dpo-mix-7k
性能表现
MT-Bench
在MT-Bench测试中,StableLM-2-1_6b-chat
在各个模型中表现出色,其表现得分为5.83分,在同类型模型中竞争力强。
OpenLLM排行榜
在OpenLLM排行榜中,该模型的总体表现优异,尤其是在特定任务如ARC Challenge和HellaSwag等基准测试中有明显优势。
使用与限制
预期使用
该模型的设计初衷是用于类似聊天的应用环境。在具体的使用场景中,开发者需评估模型的安全性能。
限制与偏见
该模型未针对对抗性输入进行过训练。因此,我们强烈建议将其与输入和输出分类器一起使用,以防止产生有害的响应。尽管内部测试显示模型不会主动输出有害信息,但在特定请求下可能产生虚构内容或误导性信息。因此,使用本模型时需设置输入和输出的防护措施,确保返回的内容无误并无害。
如何引用
@misc{StableLM-2-1.6B,
url={[https://huggingface.co/stabilityai/stablelm-2-1.6b](https://huggingface.co/stabilityai/stablelm-2-1.6b)},
title={Stable LM 2 1.6B},
author={Stability AI Language Team}
}