LawBench - 通过司法认知多维度评估大模型法律能力

LawBench 项目介绍

项目背景

在人工智能领域中，大语言模型（Large Language Models，LLMs）以其强大的能力赢得了广泛的关注。虽然它们在通用领域表现优秀，但是在高度专业化的领域，比如法律领域，它们的表现如何却仍存在疑问。法律作为一个对安全和准确性要求极高的领域，迫切需要一个专门的评估工具来考察这些AI模型在法律知识上的掌握程度和应用能力。因此，LawBench应运而生，旨在成为一个综合评估大语言模型法律能力的基准测试。

介绍

LawBench是一个经过精心设计的评估基准，专门用于准确评估大语言模型在法律领域的能力。为了确保评估的全面性，我们模拟了司法认知的三个维度来设计测试任务，并选择了20个任务来评估模型的表现。这些任务类型包含了法律实体识别、阅读理解、犯罪金额计算和法律咨询等，与现实生活中的法律应用密切相关。

目前的大语言模型可能因安全性策略而拒绝回应某些法律询问，或在理解指令方面遇到困难。因此，LawBench还开发了一个名为“弃权率”的评估指标，用于衡量模型拒绝提供答案或未正确理解指令的频率。项目中评估了51种大语言模型的表现，包括多语言模型、中文模型及法律专用模型。

数据集

LawBench的数据集涵盖20个法律相关的任务，分布在三个认知水平上：

法律知识记忆：评估模型是否能记住法律概念、术语、法条和事实。
法律知识理解：评估模型理解法律文本中实体、事件和关系的能力。
法律知识应用：评估模型在实际法律任务中的应用知识和推理能力。

这些任务为模型提供了合计500个示例，以便详细测试其性能和能力。

数据格式

数据文件以JSON格式存储，每个任务用一个JSON文件表示。模型输出也采用类似的格式，帮助研究人员更轻松地加载和分析结果。

模型列表

我们对51种广泛使用的大语言模型进行了全面测试，涵盖多语言模型、中文模型和法律专用模型。从MPT、LLaMA到GPT-4等不同的模型架构，我们都进行了全面的覆盖，以全面了解这些模型在法律领域的表现。

模型性能

在性能评估中，我们将模型分为两种情况进行测试：零样本（zero-shot）和单一样本（one-shot）。通过对比模型在提示给出仅有指令的情况下和给出指令及样例的情况下进行的表现分析，我们发现GPT-4等模型在法律相关任务中表现相对较优。

总结

LawBench不仅弥补了大语言模型在法律领域评估上的空白，还为业界提供了一个强大的工具来改善并优化这些模型在法律专业领域的应用能力。通过这一基准，研究人员和开发者可以更深入地了解其模型在法律任务中的表现，进而不断提升AI在法律行业中的实际应用能力。