法律文本分析
一份精选的法律文本分析资源、方法和工具列表。
在贡献之前,请阅读贡献指南。请通过提交一个pull请求来添加资源。我们也寻求对新想法(包括额外内容部分)的讨论和提案,作为问题。
目录
精选任务和用例
- 光学字符识别(查看更多信息这里)
- 法律文档预处理(查看更多信息这里)
- 条款分段和句子边界检测
- 信息提取和命名实体识别(查看更多信息这里)
- 法律规范分类
- 机器翻译
- 文档对比和语义匹配
- 文本摘要
- 论证挖掘
- 问答
- 法律案件结果预测
- 法律和监管监控
- 法律关键性预测
- 法庭观点生成
- 引用和共指提取
- 文档组装和生成
- 语音转录
- 异常检测
- 数据匿名化
- 一致性检查
- 法律领域的自然语言处理
方法
库
- Spacy - 工业级自然语言处理
- Scikit - Python中的机器学习
- NLTK - 自然语言工具包
- Apache UIMA
- Gate - 通用文本工程架构
- Hugging Face - 超过1000个法律领域预训练的转换/嵌入模型
- 德语Bert模型: Deepset AI
- Flair - 最先进的自然语言处理(包括生物医学和法律数据)
- Blackstone - 法律命名实体识别和文本分类器
- 法律引用检测 - Neo Search
- 法律引用检测 - 开源法律数据
- Haystack - 大规模变压器用于问答和神经搜索
- 句子边界检测(美国案例法)
- 定量法律研究
- CiteURL - 可扩展的工具,用于检测和超链接法律引用
- LexNLP – Python法律文本分析的NLP库
- 荷兰案例法提取器 - 用于获取发布的荷兰案例法(rechtspraak)数据及其相关元数据的功能
- 案例法探索者 - 用于构建网络分析软件平台以分析荷兰和欧洲法院决策的材料
数据集和数据
- NLP 数据集
- 用于语言建模的 800GB 多样化文本数据集
- 元搜索: Google 数据集搜索
- OpenLegalData
- IR 临时排名基准、训练数据集等
- 比利时: 比利时法定文章检索数据集 (BSARD),包括代码
- 超赞的德语 NLP
- 德语法律信息检索数据集 (GerDaLIR)
- 法律实体识别
- 法律文本摘要
- 法律文本翻译
- 法律文件分类
- 法律句子分类(德语)
- 十万条德国法院判决
- 法律论文数据集
- LexGLUE: 英语法律语言理解的基准数据集
- LEXTREME: 一个多语言、多任务的法律领域基准
- MultiLegalPile: 一个 689GB 的多语言法律语料库
- MultiLegalSBD: 多语言法律句子边界检测数据集
- MultiLegalNeg
- 超赞的法律数据
- 德国: 互联网上的法律, 互联网上的判例, 互联网上的行政规定
- 德国: 带注释的法院判决(判决风格)
- 德国: 德国联邦法院数据集
- 德国: 德国行政法院庇护庭审的定量数据集. ASYFAIR
- 德国: 国内民法体系中回答非专业人士的法律问题: 数据和代码. EACL 论文 2024
- 德国: 检测德国标准合同中的空条款
- 德国: 德意志联邦共和国 AK 号 (AZ-BRD)
- 德国: 德国联邦法律语料库 (C-DBR)
- 德国: 联邦宪法法院判例语料库 (CE-BVerfG)
- 德国: 联邦宪法法院官方判决语料库 (C-BVerfGE)
- 德国: 联邦宪法法院冠状病毒相关判例 (BVerfG-Corona)
- 德国: 联邦行政法院判例语料库 (CE-BVerwG)
- 德国: 联邦劳动法院判例语料库 (CE-BAG)
- 德国: 联邦专利法院判例语料库 (CE-BPatG)
- 德国: 联邦法院判例语料库 (CE-BGH)
- 德国: 德国联邦法院的总统和副总统 (PVP-FCG)
- 德国: 德国语言中的停用词 (SW-DE-RS)
- 法国: 法国法院判决结构数据集 — FCD12K
- 瑞士: 瑞士立法语料库 法语和德语
- 瑞士: 瑞士联邦最高法院数据集 (SCD)
- 瑞士: 瑞士判决预测
- 瑞士: 瑞士判决预测 XL
- 瑞士: 瑞士批判性预测
- 瑞士: 瑞士法律领域预测
- 瑞士: 瑞士重大判决
- 瑞士: 瑞士立法
- 瑞士: 瑞士裁决
- 瑞士: 瑞士重大判决摘要
- 瑞士: 瑞士引用提取
- 瑞士: 瑞士法院视图生成
- 瑞士: 瑞士 Doc2Doc 信息检索
- 土耳其: 土耳其高等法院结果预测
- 印度: 印度法律文件语料库用于法院判决预测和解释
- 欧洲人权法院: 欧洲人权法院的司法决定
- 欧洲人权法院: LaCour!: 支持对欧洲人权法院听证会中的论证进行研究
- 欧洲人权法院: 论点挖掘语料库
- 欧盟 法律 (eurlex R 包), 欧洲议会数字语料库 (DCEP)
- 欧盟 法规合规信息检索
- 欧盟 LEXTREME
- 以色列: 以色列最高法院数据库
- 加拿大: 联邦法律和法规 (ftp://205.193.86.89/)
- 英国: 英国法律报告和案例法搜索
- 英国: 剑桥法律语料库
- 美国成文法解释数据集
- 美国司法案例句子边界检测数据集
- 美国司法案例功能和问题特定分割数据集
- 美国司法案例句子极性检测
- 美国司法案例访问项目
- 通过 Free.Law 项目的 CourtListener 提供的美国联邦法院案例, 包括一个 API
- 美国最高法院数据库
- 美国众议院法律修订顾问办公室
- 美国退伍军人上诉委员会 (BVA) 引用预测 数据集 和 代码
- 政治科学数据集概览: PolData
- 国际法: 贸易协定文本 (ToTA)
- 国际法: 国际法院裁决语料库 (CD-ICJ)
- 国际法: 常设国际法院裁决语料库 (CD-PCIJ)
- 联合国: 联合国大会辩论语料库, 联合国平行语料库
- The Atticus Project 的 合同理解 Atticus 数据集: 一个包含510份商用法律合同中13000多个标签和丰富专家注释的语料库。
- Kira 系统 M&A 数据集 by Kira Systems: 一个用于非商业用途的数据集,包含4400个文件和在M&A 尽职调查背景下50个法律概念的标签。
- 印度: 法律法规识别 ILSI 数据集
- 印度: 语义切分/修辞角色标签数据集
- 印度: 多数据集摘要
- 印度: BUILDNyAI
- 欧洲专利局 - 用于文本分析的完整文本数据
- 谷歌专利公共数据集: 连接公共、付费和私人专利数据
- 世界专利信息 (WPI) - 记录主要专利授权机构的技术领域
- 种族灭绝记录语料库 (GTC)
大型语言模型和GPT
- 查看专门的 大型语言模型(LLMs)和生成预训练变换器(GPTs)在法律领域的应用
- OpenAI 的 ChatGPT:示例, 文档, 定价, 微调 ChatGPT
- 总结 ChatGPT 的草图
- 大型语言模型:KI Bundesverband 报告
- 大型语言模型:Hugging Face 报告
- 关于 ChatGPT 限制的报告
- GPT 通过司法考试
- 法律语言模型
注释和数据方案
注释工具
软件(接口)
- 案例法探索者 - 用于分析荷兰和欧洲法院决策的网络分析软件平台 - 用户指南
- 投资条约电子数据库(EDIT)
- GraphDoc - 用户友好的图形界面,允许构建决策树 - 代码库
- gesp - 直接从终端下载所有公开的德国法院判决
研究小组、实验室和社区
- 斯坦福大学 - CodeX: 斯坦福法律信息学中心
- 慕尼黑工业大学
- 慕尼黑工业大学 - 法律科技小组
- 布塞里乌斯法律职业中心
- 萨福克法学院 - 法律创新与技术实验室
- 渥太华大学 - 法律技术实验室
- 维也纳大学 - 法律创新与数字化系
- 阿姆斯特丹大学 - 莱布尼茨法律中心
- 赫尔辛基大学 - 法律科技研究实验室
- 霍夫斯特拉大学 - 法律、逻辑与技术研究实验室
- 计算法律研究
- 博洛尼亚大学 CIRSFID-AI
- 国际人工智能与法律协会(IAAIL)
- ASAIL - 法律文本中语义信息的自动检测、提取和分析
- 自然法律语言处理研讨会:论文、模型、数据集及相关活动
- 中国人工智能与法律(CAIL)
- 哥本哈根大学, i法院, 丹麦国家国际法院卓越研究中心
- 马斯特里赫特法律与技术实验室
教程
- Monkey Learn - 文本分析
- 使用 NLP 理解法律
- 法律文本的文档表示
- 律师的数据科学 - 学习资源
- 编码律师(已停用)
- 定制 NLP 数据匿名化方法
- 法律文件中的信息抽取
- 法律 NLP:句子分类和可解释的 AI
- 法律 AI 词汇表
- 法律 AI 学习中心
鸣谢
特别感谢我们的贡献者及其他人。
本作品采用知识共享署名-相同方式共享 4.0 国际许可证进行许可。