ChatLaw：基于大型语言模型的多智能体法律助手，由知识图谱和专家混合模型增强

<div align="center"> <a href="https://github.com/PKU-YuanGroup/ChatLaw"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/16fddeca-b0e9-4fa7-a8e9-f623bee6f4f8.png" width="50%"> </a> <p align="center"> <h3>但愿世间不纷争，何惜法典卷生尘</h3> <a href="https://github.com/PKU-YuanGroup/ChatLaw/graphs/contributors"> <img alt="GitHub贡献者" src="https://img.shields.io/github/contributors/PKU-YuanGroup/ChatLaw" /> </a> <a href="https://github.com/PKU-YuanGroup/ChatLaw/issues"> <img alt="问题" src="https://img.shields.io/github/issues/PKU-YuanGroup/ChatLaw?color=0088ff" /> </a> <a href="https://github.com/PKU-YuanGroup/ChatLaw/pulls"> <img alt="GitHub拉取请求" src="https://img.shields.io/github/issues-pr/PKU-YuanGroup/ChatLaw?color=0088ff" /> </a> <a href="https://github.com/PKU-YuanGroup/ChatLaw/stargazers"> <img alt="GitHub星标" src="https://img.shields.io/github/stars/PKU-YuanGroup/ChatLaw?color=ccf" /> </a> <br/> <br/> <a href="https://arxiv.org/pdf/2306.16092.pdf"><strong>arXiv</strong></a> · <a href="https://huggingface.co/PandaVT/ChatLaw2-Moe"><strong>HuggingFace</strong></a> </p> </p> </div>

ChatLaw模型

ChatLaw2-MoE

最新版本：基于InternLM架构，采用4x7B专家混合（MoE）设计。
专长：专为中文法律语言处理定制。

ChatLaw-13B

演示版本：基于Ziya-LLaMA-13B-v1模型构建。
性能：在一般中文任务中表现出色，但复杂法律问答需要更大的模型。

ChatLaw-33B

演示版本：使用Anima-33B模型。
改进：逻辑推理能力优于13B版本。
挑战：由于Anima中文训练数据有限，偶尔会默认使用英文回答。

ChatLaw-Text2Vec

功能：基于93,000份法院案例裁决训练的文本相似度模型。
能力：将用户查询与相关法律条文匹配，提供上下文相关性。
示例：将有关贷款偿还的问题与合同法相应章节联系起来。

简介

基于大型语言模型（LLMs）的AI法律助手提供了便捷的法律咨询。然而，AI回答中的幻觉风险令人担忧。本文介绍了ChatLaw，这是一种创新的助手，采用专家混合（MoE）模型和多智能体系统，以提高AI法律服务的可靠性和准确性。通过整合知识图谱和人工筛选，我们创建了一个高质量的法律数据集来训练MoE模型。该模型利用各种专家来解决一系列法律问题，优化法律回答的准确性。受律师事务所工作流程启发的标准操作程序（SOPs）显著降低了错误和幻觉的发生。

我们的MoE模型在Lawbench和法律职业资格统一考试中的表现优于GPT-4，准确率分别提高了7.73%和11分。在多个维度的实际案例咨询中，它也优于其他模型，展示了强大的法律咨询能力。

多智能体协作流程和法律咨询报告

下图展示了多个智能体在提供法律咨询服务中的协作过程，以离婚咨询为例。该过程包括信息收集、法律研究、全面建议，最终形成详细的法律咨询报告。

数据集

数据集可访问：

数据可视化和性能比较

(a) 我们的法律数据集涵盖了从案例分类到舆情分析的各种任务。

(b) ChatLaw在多个法律类别中展现出优于其他模型的性能。

(d) ChatLaw在法律职业资格统一考试的五年表现中保持高水平。

实验

法律咨询质量和模型性能评估

(a) 法律咨询质量基于完整性、逻辑性、正确性、语言质量、指导性和权威性进行评估。

(b) ChatLaw在所有标准中都获得最高分，特别是在完整性、指导性和权威性方面表现突出。

真实性问答评估

使用

在此处找到模型：ChatLaw2-MoE

@misc{cui2024chatlaw,
      title={Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model}, 
      author={Jiaxi Cui and Munan Ning and Zongjian Li and Bohua Chen and Yang Yan and Hao Li and Bin Ling and Yonghong Tian and Li Yuan},
      year={2024},
      eprint={2306.16092},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{ChatLaw,
  author={Jiaxi Cui and Zongjian Li and Yang Yan and Bohua Chen and Li Yuan},
  title={ChatLaw},
  year={2023},
  publisher={GitHub},
  journal={GitHub repository},
  howpublished={\url{https://github.com/PKU-YuanGroup/ChatLaw}},
}