legal-bert-base-uncased

LEGAL-BERT：专为法律领域打造的预训练语言模型

LEGAL-BERT是一系列专门为法律领域开发的BERT模型，旨在支持法律自然语言处理研究、计算法学和法律技术应用。这个项目由雅典经济商业大学的自然语言处理小组开发，为法律文本处理提供了强大的工具。

项目背景

随着人工智能技术在各行各业的广泛应用，法律领域也迫切需要高性能的自然语言处理模型来处理大量的法律文本。然而，通用的预训练语言模型在处理专业性很强的法律文本时往往效果不佳。为了解决这个问题，研究人员收集了12GB的多样化英语法律文本，涵盖立法、法院案例、合同等多个领域，用于预训练LEGAL-BERT模型。

模型特点

LEGAL-BERT有以下几个显著特点：

专业性强：模型在大量法律文本上进行预训练，对法律领域的语言特点有深入理解。
多样化：提供了多个子领域变体，如CONTRACTS-BERT（合同）、EURLEX-BERT（欧盟法律）和ECHR-BERT（欧洲人权法院案例）等。
性能优异：在法律领域特定任务上的表现优于通用BERT模型。
轻量化版本：提供了只有BERT-BASE 33%大小的轻量级模型，在保持竞争性能的同时大大提高了效率。

预训练语料

LEGAL-BERT的预训练语料来源广泛，包括：

116,062份欧盟立法文件
61,826份英国立法文件
19,867份欧洲法院案例
12,554份欧洲人权法院案例
164,141份美国各法院案例
76,366份美国合同文件

这些语料涵盖了法律文本的多个重要领域，为模型提供了全面的法律知识基础。

模型变体

LEGAL-BERT提供了多个针对不同子领域或需求的模型变体：

CONTRACTS-BERT-BASE：专门针对美国合同文本
EURLEX-BERT-BASE：专门针对欧盟立法文本
ECHR-BERT-BASE：专门针对欧洲人权法院案例
LEGAL-BERT-BASE：通用法律BERT模型，在所有语料上训练
LEGAL-BERT-SMALL：轻量级版本，在保持性能的同时大大减小了模型体积

应用示例

LEGAL-BERT在多个法律文本处理任务中表现出色，如：

合同文本分类与信息提取
法律案例分析与检索
法律文书自动生成
法律条文解释

例如，在处理"The applicant submitted that her husband was subjected to treatment amounting to [MASK] whilst in the custody of Adana Security Directorate"这句话时，LEGAL-BERT-BASE以接近100%的概率正确预测出[MASK]处应该填入"torture"（酷刑）一词，远超通用BERT模型的表现。

使用方法

研究人员和开发者可以通过Hugging Face的Transformers库轻松使用LEGAL-BERT：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")
model = AutoModel.from_pretrained("nlpaueb/legal-bert-base-uncased")