longchat-13b-16k 项目介绍
项目概述
longchat-13b-16k 是一个开源的聊天机器人项目。该模型的特别之处在于通过调优 llamas-13b 模型,并利用从 ShareGPT 平台收集的用户共享对话进行训练。这一过程中采用了一种新的技术叫做凝聚旋转嵌入(Condensing Rotary Embedding),在相关博客中有详细介绍。
使用说明
要使用 longchat-13b-16k 模型,可以从 FastChat 或 LongChat 仓库中加载模型(也可以使用 FastChat 的聊天 API)。在使用模型时,需要进行一个 "猴子补丁" 操作,具体操作可以参考以下指令:
-
在 LongChat 环境下:
python3 eval.py --model-name-or-path lmsys/longchat-13b-16k --task topics
-
在 FastChat 环境下:
python3 -m fastchat.serve.cli --model-path lmsys/longchat-13b-16k
补丁的具体代码位置在 GitHub 仓库中的 model_adapter.py
文件中。
模型详细信息
- 模型类型:longchat-13b-16k 是基于 llamas-13b,通过用户提供的对话数据进行微调的聊天机器人模型。
- 训练日期:该模型在 2023 年 6 月进行了训练。
- 开发团队:Dacheng Li、Rulin Shao、Anze Xie、Ying Sheng、Lianmin Zheng、Ion Stoica、Xuezhe Ma 和 Hao Zhang。
- 更多信息资源:可以访问 DachengLi1/LongChat GitHub 仓库。
- 问题和反馈:如果有问题或建议,可以通过 GitHub 仓库联系开发团队。
预期用途
- 主要用途:主要用于研究目的。
- 主要用户:自然语言处理、机器学习和人工智能领域的研究人员。
训练和评估数据集
- 训练数据集:来自 ShareGPT.com 的 18,000 条对话。
- 评估数据集:模型质量的初步评估是通过我们发布的 LongEval 进行的。
这个项目为自然语言处理领域的研究提供了一个强大的工具,寻求进一步推动对话系统和人工智能的前沿发展。通过使用用户生成的真实对话来训练,longchat-13b-16k 在真实应用场景中的表现有望更加出色。