bert-base-greek-uncased-v1项目介绍
项目背景
bert-base-greek-uncased-v1是“希腊版BERT”语言模型,该项目旨在通过自然语言处理技术促进希腊语言应用的发展。BERT模型由Google推出,是一种预训练语言模型,能够理解文本中的上下文语义。“希腊版BERT”则是在希腊语数据集上进行预训练的版本,专门用于处理希腊语文本。
预训练语料库
bert-base-greek-uncased-v1的预训练阶段使用了多种希腊语数据集:
- 希腊版维基百科
- 欧洲议会会议记录的希腊语部分
- OSCAR清洗版的Common Crawl中希腊语部分
未来的版本将包含:
- 希腊国家出版办公室发布的希腊立法全文库
- 欧盟立法中的希腊语翻译部分
预训练细节
项目使用Google BERT官方代码进行训练,并通过Hugging Face的转换脚本将TensorFlow的检查点和词汇表转换成PyTorch和TF2可用的格式。
- 模型共12层,隐藏层大小为768,具有12个注意力头,参数数量为1.1亿。
- 采用与英语版BERT相同的训练设置:训练步数为1百万步,批次包含256个序列,每个序列长度为512,初始学习率为1e-4。
- 主要使用一台由TensorFlow Research Cloud免费提供的Google Cloud TPU v3-8进行训练。
使用要求
bert-base-greek-uncased-v1已在Hugging Face的Transformers库中发布,使用该模型需要安装Transformers库以及PyTorch或TensorFlow 2。
pip install transformers
pip install torch # 或者 tensorflow
文本预处理
在使用bert-base-greek-uncased-v1进行预测前,需将文本处理为小写并去除希腊语变音符号。以下是实现该功能的示例代码:
import unicodedata
def strip_accents_and_lowercase(s):
return ''.join(c for c in unicodedata.normalize('NFD', s)
if unicodedata.category(c) != 'Mn').lower()
accented_string = "Αυτή είναι η Ελληνική έκδοση του BERT."
unaccented_string = strip_accents_and_lowercase(accented_string)
print(unaccented_string) # 输出:'αυτη ειναι η ελληνικη εκδοση του bert.'
加载预训练模型
以下是如何加载模型和词汇表的示例代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
model = AutoModel.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
作为语言模型的应用
以下示例展示如何使用模型在希腊语文本中完成缺失词填充任务:
import torch
from transformers import *
# 加载模型和词汇表
tokenizer_greek = AutoTokenizer.from_pretrained('nlpaueb/bert-base-greek-uncased-v1')
lm_model_greek = AutoModelWithLMHead.from_pretrained('nlpaueb/bert-base-greek-uncased-v1')
# 示例1
text_1 = 'O ποιητής έγραψε ένα [MASK] .'
input_ids = tokenizer_greek.encode(text_1)
outputs = lm_model_greek(torch.tensor([input_ids]))[0]
print(tokenizer_greek.convert_ids_to_tokens(outputs[0, 5].max(0)[1].item())) # 输出最可能的结果:'song'
模型评估
bert-base-greek-uncased-v1在下游任务中表现优异:
- 命名实体识别(NER):在希腊NER数据集上,模型取得了85.7的Micro F1分数,相较于其他方法有显著提高。
- 自然语言推理(XNLI):准确率达到78.6,同样领先于其他模型。
项目作者
该模型的官方发表文章为“GREEK-BERT: The Greeks visiting Sesame Street”,由约翰·科茨卡基斯(Ilias Chalkidis)、伊利亚斯·查尔基迪斯、普罗德罗莫斯·马拉卡西奥蒂斯和艾昂·安德鲁措波洛斯合著,并发表在SETN 2020学术会议上。
任何使用该模型请引用相关文献。有关更多信息请访问AUEB的自然语言处理小组。
关于我们
雅典经济与商业大学的信息处理实验室中,自然语言处理小组专注于发展各种处理和生成自然语言文本的算法、模型和系统,尤其在问答系统、文本分类、信息提取等领域进行深入研究。