Lawyer LLaMA 项目简介
Lawyer LLaMA 是一个专注于法律领域的人工智能项目,致力于在充满挑战的法律环境中利用LLaMA模型,通过精细微调和法律特定训练,提升模型的性能。从根本上,Lawyer LLaMA 的目标是弥补LLaMA在法律领域的探索空白,增强其在法律知识应用中的能力。
项目背景
LLaMA模型在通用领域的表现优异,但是因缺乏相关数据,很少有人探究LLaMA在法律领域的具体表现。Lawyer LLaMA正是为了解决这一问题而推出的,其通过对大规模法律语料的持续训练,系统学习中国法律知识。随后,利用ChatGPT生成了针对中国国家统一法律职业资格考试(简称法考)的题目解析和法律咨询回复数据,进行指令微调训练,使模型能将法律知识有效应用于实际场景。
模型能力
Lawyer LLaMA 经过训练,能够:
-
掌握中国法律知识: 精通民法、刑法、行政法、诉讼法等多个领域的法律概念,能够正确分析和回答法考中的大部分题目。
-
应用于实际法律事务: 能用简单易懂的语言解释法律概念,并能提供涵盖婚姻、借贷、海商、刑事等领域的基础法律咨询。
数据与技术更新
本项目将开源法律领域的指令微调数据和基于LLaMA训练的中文法律大模型参数,以支持中文法律大模型的进一步研究。以下是项目的更新:
- 2024年4月25日: 发布了新版的 Lawyer LLaMA 2 (
lawyer-llama-13b-v2
) 模型参数,并提高了法律指令微调数据的质量。 - 2023年10月14日: 更新了技术报告《Lawyer LLaMA: Enhancing LLMs with Legal Knowledge》,提供更多技术细节。
- 2023年6月8日: 开源了
lawyer-llama-13b-beta1.0
模型参数。 - 2023年5月25日: 发布了包含用户问题相关法条的对话数据和《Lawyer LLaMA技术报告》。
- 2023年4月13日: 开源了由ChatGPT生成的2k法考试题解答及5k法律咨询回复的指令微调数据。
技术细节
训练数据
- 收集公开法律数据用于模型的持续训练,包括法律条文、裁判文书等。
- 利用 Alpaca-GPT4 生成的中英双语通用指令微调数据。
- 基于ChatGPT的法律指令微调数据,提高生成质量,涵盖大量法律咨询和问题解析。
现有版本
lawyer-llama-13b-v2
: 基于有持续中文预训练的LLaMA-2,结合GPT-4生成的法律指令进行SFT训练。lawyer-llama-13b-beta1.0
: 基于Chinese-LLaMA-13B,利用GPT-3.5生成的法律指令进行SFT训练。
系统效果与评测
使用Chain-of-Discussion中的咨询问题对模型进行自动评测,得出下列结果:
- Lawyer LLaMA 2 在多项测试中表现优良,特别是在法律咨询回复的语言流畅性和逻辑性方面。
- 相较于许多现有的大模型,Lawyer LLaMA 2 在法律领域专门问题上的回答得分较高。
限制与免责声明
Lawyer LLaMA项目仅供学术研究使用,不得作商业用途。数据由ChatGPT生成,存在潜在错误风险,使用时需警惕辨别。模型并非专业法律咨询工具,应在专业律师指导下使用其结果进行法律行为。
致谢和引用
项目感谢所使用和贡献的各个开源项目。有关引用与项目使用的具体细节,请参考相关文献引用格式。
通过Lawyer LLaMA,研究者致力于推动法律AI的开源研究进步,期待更多参与者的交流与合作。