项目介绍:entity-recognition-datasets
简介
Entity-recognition-datasets是一个致力于实体识别和命名实体识别(NER)任务的数据集集合。此库包含多个领域的英文和其他语言的数据集,通过多种实体类型进行注释。这些数据集对于研究和应用各类实体识别任务都是极其有用的资源。
英文实体识别数据集
英文实体识别(NER)的数据集丰富多样,覆盖新闻、社交媒体、医学、金融等多个领域。以下列举部分代表性数据集:
- CONLL 2003:一个用于新闻领域的经典数据集,由Sang和Meulder于2003年首次引入。
- NIST-IEER:来源于NIST 1999 IE-ER,适用于新闻领域。
- OntoNotes 5:涵盖了多个领域的数据集,由Weischedel等人于2013年推出。
- wikigold:基于维基百科的数据集,注释采用CC-BY 4.0许可。
- i2b2医疗数据集:包括2006和2014年的数据集,毒材料至医疗文献,用于医学领域的实体识别。
非英文实体识别数据集
除了英文数据集,该项目还收录了许多其他语言的NER数据集。这些数据集让语言研究者能够在多语言环境中进行NER研究。部分语言包括:
- 德语:如CoNLL 2003 GermEval 2014等。
- 西班牙语和加泰罗尼亚语:如AnCora数据集。
- 法律和医学领域专用数据集:例如以法语为主的QUAERO医学和广播新闻语料库。
特性和附录
这个项目平台允许开发者和研究人员提交新的数据集,扩展可用数据集的数量和多样性。虽然自2020年以来项目不再主动增加数据集,但项目依旧接受通过“问题”或“拉取请求”的方式来增加新的数据集。此外,各数据集的使用权主要受限于其特定的许可类型,从DUA(数据使用协议)、LDC发布许可、到开放许可如CC BY-SA等都有所涵盖。项目文档的子目录中提供了更详细的许可信息。
未来发展
对于有兴趣者而言,可通过阅读项目的更新文档和讨论来获取更多支持信息以及参与项目的机会。这些努力不仅对于学术研究有深远意义,更为推动实体识别技术在实际应用中的普及提供了坚实的基础。
entity-recognition-datasets项目对于希望通过实体识别技术更好地理解语言和文本的开发者、数据科学家、研究人员以及语言爱好者来说,是一个不可或缺且宝贵的资源。