Project Icon

CharacterGLM-6B

新一代中文AI角色对话模型

CharacterGLM-6B是聆心智能与清华大学CoAI实验室联合开发的新一代对话模型。基于ChatGLM2系列,该模型通过独特的属性和行为设计,实现AI角色的一致性、拟人化和吸引力。在多项评估中,CharacterGLM-6B展现出优于主流大语言模型的性能,尤其在角色扮演和对话能力方面表现突出。这一开源项目为研究人员和开发者提供了创建个性化AI角色的有力工具,推动对话AI技术的进步。

CharacterGLM-6B


🤗 HF 仓库 • 📃 CharacterGLM 论文

👋 加入我们的 微信

📍在 开放平台 体验更大规模的 CharacterGLM 模型。

阅读英文版。

体验更强的能力

如果你想使用更大参数量的 CharacterGLM 模型,可以在 开放平台 体验更大规模的 CharacterGLM 模型。 API版本 具有更多角色,更强的情景带入能力,更加完善的法律,道德规范,具备产品能力,方便开发者进行更深度的情景模拟和产品开发。

开源模型不具备商用能力,仅供学术研究使用,不可用于任何商业和传播用途

📔 更为详细的使用信息,可以参考:CharacterGLM-6B 技术文档

介绍

CharacterGLM-6B 是 聆心智能和清华大学 CoAI 实验室联合发布的新一代对话预训练模型。CharacterGLM-6B 是 基于 ChatGLM2 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,CharacterGLM-6B 的设计遵循以下原则:

AI角色变"活"的强心针

一个对话式的AI角色要想表现得像一个栩栩如生的人,必定需要具备"人的特质",特别是人在语言表达中的文本形式的特征。我们将人的语言表达特征的重点落实在属性和行为上:属性主要影响语言表达的内容,行为则影响语言表达的风格和口吻。

属性: CharacterGLM的设计主要考虑了七种属性,包括身份、兴趣、观点、经历、成就、社交关系和其他。

行为: 行为主要由一些动态的元素组成:语言特征、情感表达和互动模式。例如,老年人更倾向于使用一些更正式的语言,而青少年则更喜欢用网络流行语。CharacterGLM则主要考虑了语言学特征和性格作为行为方面的设计。

AI角色是否"活"的照妖镜

一个对话式的AI角色要想证明自己是一个栩栩如生的角色,需要具备真实的人所具备的表达特质。我们主要关注三个方面的表达特质:一致性、拟人化和吸引力。

一致性: 角色一致性是角色在交互期间展现稳定的属性和行为的能力。维持一个会话式AI角色在对话中属性和行为的一致对于赢得用户的满足和信任是至关重要的。

拟人化: 角色拟人化要求角色在与用户的交互中表现自然,类似人与人之间的自然交互。类人的会话式AI角色对于提高用户的接受度以及促进更自然和有吸引力的对话是不可或缺的。

吸引力: 吸引力是会话式AI角色引起用户兴趣以及促进用户参与的衡量依据。聊天过程中,让对话有趣,让人想聊下去会直接影响用户的体验,这也是对话模型整体性能的一个体现。

对话示例

方法

依据上面的设计原则,我们收集了包含属性和行为的角色描述,并众包构建了一个大规模高质量的对话数据集,并将角色描述转化为了自然语言提示,进而使用从6B到66B参数的ChatGLM模型进行微调来打造CharacterGLM。此外,还收集了一部分线上交互数据来增强 CharacterGLM 的训练,以实现CharacterGLM的自我完善式迭代。


CharacterGLM-6B 开源模型旨在与开源社区一起推动大模型技术发展,恳请开发者和大家遵守 开源协议, 勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。 目前,本项目我们未基于 CharacterGLM-6B 开源模型 开发任何应用,包括网页端、安卓、苹果 iOS 及 Windows App 等应用。 由于 CharacterGLM-6B 模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。 本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。

实验

评估标准

除了一致性(Consistency)、拟人化(Human-likeness)和吸引力(Engagement),我们使用:(1)质量(Quality)来评估回复的流畅度和上下文连贯性,(2)安全性(Safety)衡量回复是否符合道德标准,(3)正确性(Correctness)确定回复是否存在幻觉。此外,使用"整体(Overall)"指标来衡量模型回复的整体质量。

评估设置

我们将 CharacterGLM 与10个中文友好的主流 LLM 进行对比,雇佣了10个标注人员,每个标注人员在11个模型上各创建两个角色,并进行不少于20轮的对话交互。交互完成后,标注人员依据上述6个子维度和整体维度进行1-5分的打分,分值越高表示模型性能越好,最后计算每个模型在各个维度上的平均分。

评估结果

错误分析

我们对11个模型每个轮次的回复进一步标注了六个方面:角色不一致(OOC)、矛盾(Contradiction)、重复(Repetition)、低质量(Less-quality)、低信息量(Less-information)和主动性(Proactivity,主动引导话题并推动对话发展的能力)。此外,"整体(Overall)"分数的计算方式为前五个维度的总和减去第六个维度,"整体"得分越低表示性能越好。

结果如上表所示,CharacterGLM的整体回答质量明显优于基准模型。虽然 CharacterGLM-66B 在大多数维度上并未达到最佳性能,但整体得分最佳。此外,尽管CharacterGLM在主动性方面的表现不够出色,但从下表示例中可以看到模型具备推动情节发展的能力,这在吸引用户并保持他们对话的兴趣中发挥了关键作用。

对比式评估

我们将 CharacterGLM 与专门用于角色扮演的 MiniMax 模型以及 GPT-3.5 和 GPT-4进行了对比式的评估。该评估仍采用交互式人工评估,共涉及24个角色,涵盖名人类、日常生活类、游戏影音类以及虚拟恋爱类角色,对话主题限制在闲聊、访谈和恋爱三种场景。同样地,这里雇佣了10个标注人员与模型进行交互,并标记两个模型在相同上下文下的两个输出为胜(win)/平(tie)/负(lose),最终计算每个模型在不同角色类别和对话主题下的胜/平/负比率。

按角色类别评估的结果如下表所示,CharacterGLM-66B在大多数角色类别中始终优于GPT-3.5和MiniMax。

按对话主题评估的结果如下表所示,CharacterGLM-66B在闲聊和恋爱场景中与MiniMax表现相当,但在访谈场景中CharacterGLM-66B以显著的7%优势胜过MiniMax。CharacterGLM-66B稍逊GPT-4,但与GPT-3.5相比,CharacterGLM-66B在所有对话主题中都具有优势。

使用方式

环境安装

首先需要下载本仓库:

git clone https://github.com/thu-coai/CharacterGLM-6B
cd CharacterGLM-6b

然后使用pip安装依赖:

pip install -r requirements.txt
  • transformers库版本应该为4.36.2及以上版本,torch库版本应为2.1.0及以上版本,以获得最佳的推理性能。
  • 为了保证torch的版本正确,请严格按照官方文档的说明安装。

从本地加载模型

自动下载模型实现和参数。完整的模型实现在Hugging Face Hub。如果你的网络环境较差,下载模型参数可能会花费较长时间甚至失败。此时可以先将模型下载到本地,然后从本地加载。

从Hugging Face Hub下载模型需要先安装Git LFS,然后运行

git lfs install 
git clone https://huggingface.co/thu-coai/CharacterGLM-6B

网页版对话Demo

可以通过以下命令启动基于Streamlit的网页版demo

一定要进入文件夹运行,防止出现无法找到character.json的问题

cd basic_demo
streamlit run web_demo_streamlit.py

网页版demo会运行一个Web Server,并输出地址。在浏览器中打开输出的地址即可使用。经测试,基于Streamlit的网页版Demo会更流畅。

命令行对话Demo

运行仓库中cli_demo.py

python basic_demo/cli_demo.py

程序会在命令行中进行交互式的对话,在命令行中输入指示并回车即可生成回复,输入clear可以清空对话历史,输入stop终止程序。

模型微调

我们暂时还没有提供模型微调的脚本,我们将尽快推出,敬请期待。

引用

如果你觉得我们的工作有帮助的话,请考虑引用下列论文。

@article{zhou2023characterglm,
  title={CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models},
  author={Zhou, Jinfeng and Chen, Zhuang and Wan, Dazhen and Wen, Bosi and Song, Yi and Yu, Jifan and Huang, Yongkang and Peng, Libiao and Yang, Jiaming and Xiao, Xiyao and others},
  journal={arXiv preprint arXiv:2311.16832},
  year={2023}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号