DeepSeek LLM 项目介绍
项目概述
DeepSeek LLM 是一个先进的语言模型,拥有70亿(7B)个参数,旨在为研究社区提供开源的语言模型。这个模型从头开始训练,训练数据包括了多达2万亿个英文和中文字符。DeepSeek LLM 7B/67B基础模型和聊天模型都是开放源码的,供研究者使用。
模型概况
deepseek-llm-7b-chat
是一个拥有7B参数的模型,由 deepseek-llm-7b-base
初始化,并在额外的指令数据上进行了微调。该模型的设计目的是为了能够在对话和各种语言任务中高效工作。
- 官方网站: DeepSeek
- 仓库地址: deepseek-ai/deepseek-LLM
- 聊天体验: DeepSeek-LLM
使用指南
以下是一些使用该模型的例子,帮助用户如何进行操作。
聊天完成示例
如果你想与模型对话,可以通过以下Python代码来实现:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/deepseek-llm-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [
{"role": "user", "content": "Who are you?"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)
值得注意的是,避免使用函数 apply_chat_template
,你可以直接根据示例模板与模型交互,需要将 messages
替换为你的输入内容。
注意:默认情况下(add_special_tokens=True
),我们的分词器会自动在输入文本前添加 bos_token
(<|begin▁of▁sentence|>
)。由于系统提示与我们模型的此版本不兼容,我们不建议在输入中包含系统提示。
许可证信息
此代码仓库遵循 MIT 许可证。对于 DeepSeek LLM 模型的使用,则适用模型许可证。DeepSeek LLM 支持商用使用。
更多详细信息请参阅 LICENSE-MODEL。
联系方式
如有任何问题,欢迎通过在GitHub提交问题或发送邮件至 service@deepseek.com 联系我们。