deepseek-llm-7b-chat - 7B参数中英双语模型，开放源代码以支持研究

DeepSeek LLM 项目介绍

项目概述

DeepSeek LLM 是一个先进的语言模型，拥有70亿（7B）个参数，旨在为研究社区提供开源的语言模型。这个模型从头开始训练，训练数据包括了多达2万亿个英文和中文字符。DeepSeek LLM 7B/67B基础模型和聊天模型都是开放源码的，供研究者使用。

模型概况

deepseek-llm-7b-chat 是一个拥有7B参数的模型，由 deepseek-llm-7b-base 初始化，并在额外的指令数据上进行了微调。该模型的设计目的是为了能够在对话和各种语言任务中高效工作。

官方网站: DeepSeek
仓库地址: deepseek-ai/deepseek-LLM
聊天体验: DeepSeek-LLM

使用指南

以下是一些使用该模型的例子，帮助用户如何进行操作。

聊天完成示例

如果你想与模型对话，可以通过以下Python代码来实现：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/deepseek-llm-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

messages = [
    {"role": "user", "content": "Who are you?"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

值得注意的是，避免使用函数 apply_chat_template，你可以直接根据示例模板与模型交互，需要将 messages 替换为你的输入内容。

注意：默认情况下（add_special_tokens=True），我们的分词器会自动在输入文本前添加 bos_token（<｜begin▁of▁sentence｜>）。由于系统提示与我们模型的此版本不兼容，我们不建议在输入中包含系统提示。

许可证信息

此代码仓库遵循 MIT 许可证。对于 DeepSeek LLM 模型的使用，则适用模型许可证。DeepSeek LLM 支持商用使用。

更多详细信息请参阅 LICENSE-MODEL。

联系方式

如有任何问题，欢迎通过在GitHub提交问题或发送邮件至 service@deepseek.com 联系我们。