indobert-base-uncased

项目介绍：indobert-base-uncased

indobert-base-uncased是一款为印度尼西亚语自然语言处理（NLP）量身打造的预训练语言模型，其灵感来自BERT模型，并在多个大型数据集中进行了训练。这个模型的目标是通过改善印度尼西亚语言处理任务的表现，推动语言技术在该地区的应用和发展。

背景

IndoBERT是印度尼西亚版本的BERT模型，通过从以下三个主要数据源中收集的2.2亿多个单词进行训练：

印度尼西亚语维基百科（7400万个单词）
来自Kompas、Tempo和Liputan6等新闻文章（总计5500万个单词）
印度尼西亚网络语料库（9000万个单词）

这种全面的训练数据组合使IndoBERT能够捕捉印度尼西亚语丰富的语言结构。

技术细节

IndoBERT模型经过240万步（相当于180个迭代周期）的训练，最终在开发集上的困惑度达到3.97，这一结果与英语BERT-base的表现相近。

IndoBERT还被用于测试IndoLEM——一个针对印度尼西亚语的基准集合。IndoLEM包含七个任务，涵盖了形态句法、语义和语篇等多个方面。测试结果表明，在这些任务中，IndoBERT显示出了较为卓越的性能，尤其是在命名实体识别（NER）、依存句法分析、情感分析、摘要生成、推文预测和排序任务中均取得了领先的成绩。

性能表现简析

以下是IndoBERT在不同任务上的性能表现，与其他模型进行对比：

POS标注： 准确率达96.8%，与其他顶尖模型持平。
命名实体识别（UGM & UI）： 在UGM任务中F1值为74.9，在UI任务中则达到90.1，超越了其他模型。
依存句法分析： 在UD-Indo-GSD和UD-Indo-PUD数据集上，IndoBERT取得了最高的UAS和LAS得分。
情感分析： F1值达到了84.13。
摘要生成： 在R1、R2及RL指标上，IndoBERT的表现超过了其他BERT衍生模型。
推文预测和排序： 准确率和Spearman相关系数分别达到了93.7和0.59。

如何使用IndoBERT

IndoBERT可以通过transformers库轻松加载，与语言模型和分词器搭配使用，详细的Python代码示例如下：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased")
model = AutoModel.from_pretrained("indolem/indobert-base-uncased")