heBERT_NER - HeBERT: 专为希伯来语设计的命名实体识别和情感分析模型

heBERT_NER项目介绍

heBERT_NER是一个专注于希伯来语的语言模型项目。这个项目基于Google的BERT架构开展，其目标是在希伯来语文本数据上进行多种自然语言处理（NLP）任务的预训练和应用。

heBERT模型简介

HeBERT模型是为希伯来语开发的预训练语言模型，它采用了BERT-Base的配置。它被设计用来解决多种NLP任务，如情感分析和情绪识别。HeBERT的训练数据主要来自三个数据集：

OSCAR的希伯来语版本：包含大约9.8 GB的数据，涵盖约10亿个词和超过2080万句子。
维基百科的希伯来语数据：大约650 MB，包括6300多万个词和380万句子。
情绪用户生成内容（UGC）数据：专门为该研究收集的情绪数据。

实体识别 (NER)

heBERT具备在文本中识别命名实体的能力，例如识别人的名字、组织和地点。该功能在名为“Ben Mordecai and M Elhadad (2005)”的数据集上进行了测试，并通过F1-score进行评估。

如何应用

要使用heBERT进行命名实体识别，用户可以使用以下的Python代码：

from transformers import pipeline

# 如何使用？
NER = pipeline(
    "token-classification",
    model="avichr/heBERT_NER",
    tokenizer="avichr/heBERT_NER",
)
NER('דויד לומד באוניברסיטה העברית שבירושלים')

其他任务

heBERT不仅限于实体识别，它还可以用于其他任务，包括：

情绪识别模型：在线模型可以在huggingface spaces上找到，或作为colab notebook使用。
情感分析：可以通过此链接找到。
掩码语言模型：可以用于任何下游任务的微调，详情请见这里。

联系我们

项目由以下成员领导：

Avichay Chriqui: avichayc@mail.tau.ac.il
Inbal Yahav: inbalyahav@tauex.tau.ac.il

项目属于Coller语言AI实验室。更多详细信息可以访问它们的GitHub页面。

项目引用

如果您使用此模型，请引用以下论文：

@article{chriqui2021hebert,
  title={HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={arXiv preprint arXiv:2102.01909},
  year={2021}
}

HeBERT项目为研究与应用提供了一种强大的工具，助力于更深入地理解和应用希伯来语领域的自然语言处理技术。