ChatLaw:基于大型语言模型的多智能体法律助手,由知识图谱和专家混合模型增强
ChatLaw模型
ChatLaw2-MoE
-
最新版本:基于InternLM架构,采用4x7B专家混合(MoE)设计。
-
专长:专为中文法律语言处理定制。
ChatLaw-13B
- 演示版本:基于Ziya-LLaMA-13B-v1模型构建。
- 性能:在一般中文任务中表现出色,但复杂法律问答需要更大的模型。
ChatLaw-33B
- 演示版本:使用Anima-33B模型。
- 改进:逻辑推理能力优于13B版本。
- 挑战:由于Anima中文训练数据有限,偶尔会默认使用英文回答。
ChatLaw-Text2Vec
- 功能:基于93,000份法院案例裁决训练的文本相似度模型。
- 能力:将用户查询与相关法律条文匹配,提供上下文相关性。
- 示例:将有关贷款偿还的问题与合同法相应章节联系起来。
简介
基于大型语言模型(LLMs)的AI法律助手提供了便捷的法律咨询。然而,AI回答中的幻觉风险令人担忧。本文介绍了ChatLaw,这是一种创新的助手,采用专家混合(MoE)模型和多智能体系统,以提高AI法律服务的可靠性和准确性。通过整合知识图谱和人工筛选,我们创建了一个高质量的法律数据集来训练MoE模型。该模型利用各种专家来解决一系列法律问题,优化法律回答的准确性。受律师事务所工作流程启发的标准操作程序(SOPs)显著降低了错误和幻觉的发生。
我们的MoE模型在Lawbench和法律职业资格统一考试中的表现优于GPT-4,准确率分别提高了7.73%和11分。在多个维度的实际案例咨询中,它也优于其他模型,展示了强大的法律咨询能力。
多智能体协作流程和法律咨询报告
下图展示了多个智能体在提供法律咨询服务中的协作过程,以离婚咨询为例。该过程包括信息收集、法律研究、全面建议,最终形成详细的法律咨询报告。
数据集
数据集可访问:
数据可视化和性能比较
(a) 我们的法律数据集涵盖了从案例分类到舆情分析的各种任务。
(b) ChatLaw在多个法律类别中展现出优于其他模型的性能。
(c) 在Lawbench比较中,ChatLaw在法律认知任务中持续优于其他模型。
(d) ChatLaw在法律职业资格统一考试的五年表现中保持高水平。
实验
法律咨询质量和模型性能评估
(a) 法律咨询质量基于完整性、逻辑性、正确性、语言质量、指导性和权威性进行评估。
(b) ChatLaw在所有标准中都获得最高分,特别是在完整性、指导性和权威性方面表现突出。
(c) 与其他模型相比,ChatLaw显示出更高的胜率,表明其在提供高质量法律咨询方面具有优越能力。
真实性问答评估
使用
在此处找到模型:ChatLaw2-MoE
@misc{cui2024chatlaw,
title={Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model},
author={Jiaxi Cui and Munan Ning and Zongjian Li and Bohua Chen and Yang Yan and Hao Li and Bin Ling and Yonghong Tian and Li Yuan},
year={2024},
eprint={2306.16092},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{ChatLaw,
author={Jiaxi Cui and Zongjian Li and Yang Yan and Bohua Chen and Li Yuan},
title={ChatLaw},
year={2023},
publisher={GitHub},
journal={GitHub repository},
howpublished={\url{https://github.com/PKU-YuanGroup/ChatLaw}},
}