heBERT_NER项目介绍
heBERT_NER是一个专注于希伯来语的语言模型项目。这个项目基于Google的BERT架构开展,其目标是在希伯来语文本数据上进行多种自然语言处理(NLP)任务的预训练和应用。
heBERT模型简介
HeBERT模型是为希伯来语开发的预训练语言模型,它采用了BERT-Base的配置。它被设计用来解决多种NLP任务,如情感分析和情绪识别。HeBERT的训练数据主要来自三个数据集:
- OSCAR的希伯来语版本:包含大约9.8 GB的数据,涵盖约10亿个词和超过2080万句子。
- 维基百科的希伯来语数据:大约650 MB,包括6300多万个词和380万句子。
- 情绪用户生成内容(UGC)数据:专门为该研究收集的情绪数据。
实体识别 (NER)
heBERT具备在文本中识别命名实体的能力,例如识别人的名字、组织和地点。该功能在名为“Ben Mordecai and M Elhadad (2005)”的数据集上进行了测试,并通过F1-score进行评估。
如何应用
要使用heBERT进行命名实体识别,用户可以使用以下的Python代码:
from transformers import pipeline
# 如何使用?
NER = pipeline(
"token-classification",
model="avichr/heBERT_NER",
tokenizer="avichr/heBERT_NER",
)
NER('דויד לומד באוניברסיטה העברית שבירושלים')
其他任务
heBERT不仅限于实体识别,它还可以用于其他任务,包括:
- 情绪识别模型:在线模型可以在huggingface spaces上找到,或作为colab notebook使用。
- 情感分析:可以通过此链接找到。
- 掩码语言模型:可以用于任何下游任务的微调,详情请见这里。
联系我们
项目由以下成员领导:
- Avichay Chriqui: avichayc@mail.tau.ac.il
- Inbal Yahav: inbalyahav@tauex.tau.ac.il
项目属于Coller语言AI实验室。更多详细信息可以访问它们的GitHub页面。
项目引用
如果您使用此模型,请引用以下论文:
@article{chriqui2021hebert,
title={HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
author={Chriqui, Avihay and Yahav, Inbal},
journal={arXiv preprint arXiv:2102.01909},
year={2021}
}
HeBERT项目为研究与应用提供了一种强大的工具,助力于更深入地理解和应用希伯来语领域的自然语言处理技术。