项目介绍:BERT-NER日语项目
BERT-NER日语项目旨在通过BERT模型从日语文本中提取固有表现。这个项目由BertForTokenClassification模型实现,其目的是识别和区分文本中的特定实体,如人名、地名、组织名等。
固有表现类型
在本项目中,可以从文本中提取的固有表现有以下八种类型:
- 人名:识别文本中的人名。
- 法人名:包括法人与类似组织的名称。
- 政治组织名:包含政治组织、政党、政府、行政、军事和国际组织的名称。
- 其他组织名:泛指各种其他组织,例如体育组织和演出组织。
- 地名:识别并标记地理位置的名称。
- 设施名:包括建筑物、机构等的名称。
- 产品名:可以是商品、节目、电影、书籍、歌曲、品牌等的名称。
- 事件名:识别并标记事件的名称。
使用方法
要使用这个项目,用户需要安装必要的Python库,包括transformers
,unidic_lite
和fugashi
。安装完成后,只需运行简单几行代码即可实现实体抽取。这两步操作在Python环境中可以简便地实现。
示例代码如下:
from transformers import BertJapaneseTokenizer, BertForTokenClassification
from transformers import pipeline
model = BertForTokenClassification.from_pretrained("jurabi/bert-ner-japanese")
tokenizer = BertJapaneseTokenizer.from_pretrained("jurabi/bert-ner-japanese")
ner_pipeline = pipeline('ner', model=model, tokenizer=tokenizer)
result = ner_pipeline("株式会社Jurabiは、東京都台東区に本社を置くIT企業である。")
模型背景
该项目采用日本东北大学乾研究室发布的日本语BERT模型,即cl-tohoku/bert-base-japanese-v2,作为其基础模型。
学习数据
项目中使用到的训练数据是由Stockmark公司发布的,基于Wikipedia的日语固有表现抽取数据集。可以在stockmarkteam/ner-wikipedia-dataset找到相关信息。
源代码
关于这个项目的详细实现和用于微调的程序代码,可以在GitHub上访问jurabiinc/bert-ner-japanese。
许可协议
本项目的使用受Creative Commons Attribution-ShareAlike 3.0许可协议保护,确保了项目的共享和再发行条件。
这个项目提供了一个强大而灵活的工具,用于处理日语文本中固有名词的自动化识别和标注,在促进日语自然语言处理技术的发展中起到积极的推动作用。