Project Icon

KR-BERT

高效小型韩语预训练模型

KR-BERT是首尔国立大学开发的韩语特定BERT模型,采用双向WordPiece分词技术,支持字符和子字符级处理。该模型在词汇量和参数规模上经过优化,在多项下游任务中表现出色,为韩语自然语言处理提供高效准确的解决方案。

基于韩语的BERT预训练模型 (KR-BERT)

这是由首尔大学计算语言学实验室开发的韩语特定、小规模BERT模型的发布版本,性能相当或更优,详见论文KR-BERT: A Small-Scale Korean-Specific Language Model


词汇量、参数和数据

多语言BERT
(Google)
KorBERT
(ETRI)
KoBERT
(SKT)
KR-BERT 字符KR-BERT 子字符
词汇量119,54730,7978,00216,42412,367
参数大小167,356,416109,973,39192,186,88099,265,06696,145,233
数据大小-
(104种语言的维基百科数据)
23GB
47亿形态素
-
(2500万句,
2.33亿词)
2.47GB
2000万句,
2.33亿词
2.47GB
2000万句,
2.33亿词
模型掩码语言模型准确率
KoBERT0.750
KR-BERT 字符 双向WordPiece0.779
KR-BERT 子字符 双向WordPiece0.769

子字符

韩语文本基本上由谚文音节字符表示,这些字符可以分解为子字符或石墨。为了适应这些特点,我们在两种不同的语料表示上训练了新的词汇表和BERT模型:音节字符和子字符。

如果使用我们的子字符模型,你应该使用以下代码预处理数据。

from transformers import BertTokenizer
from unicodedata import normalize

vocab_url = 'https://raw.githubusercontent.com/snunlp/KR-BERT/master/krbert_pytorch/pretrained/vocab_snu_subchar12367.txt'

tokenizer_krbert = BertTokenizer.from_pretrained(vocab_url, do_lower_case=True)

# 将字符串转换为子字符
def to_subchar(string):
    return normalize('NFKD', string)

sentence = '토크나이저 예시입니다.'
print(tokenizer_krbert.tokenize(to_subchar(sentence)))

分词

双向WordPiece分词器

我们使用双向WordPiece模型来减少搜索成本,同时保持选择的可能性。该模型在正向和反向两个方向应用BPE以获得两个候选项,并选择频率较高的那个。

多语言BERTKorBERT
字符
KoBERTKR-BERT
字符
WordPiece
KR-BERT
字符
双向WordPiece
KR-BERT
子字符
WordPiece
KR-BERT
子字符
双向WordPiece
냉장고
nayngcangko
"refrigerator"
냉#장#고
nayng#cang#ko
냉#장#고
nayng#cang#ko
냉#장#고
nayng#cang#ko
냉장고
nayngcangko
냉장고
nayngcangko
냉장고
nayngcangko
냉장고
nayngcangko
춥다
chwupta
"cold"
[UNK]춥#다
chwup#ta
춥#다
chwup#ta
춥#다
chwup#ta
춥#다
chwup#ta
추#ㅂ다
chwu#pta
추#ㅂ다
chwu#pta
뱃사람
paytsalam
"seaman"
[UNK]뱃#사람
payt#salam
뱃#사람
payt#salam
뱃#사람
payt#salam
뱃#사람
payt#salam
배#ㅅ#사람
pay#t#salam
배#ㅅ#사람
pay#t#salam
마이크
maikhu
"microphone"
마#이#크
ma#i#khu
마이#크
mai#khu
마#이#크
ma#i#khu
마이크
maikhu
마이크
maikhu
마이크
maikhu
마이크
maikhu

模型

TensorFlowPyTorch
字符级子字符级字符级子字符级
WordPiece
分词器
WP 字符WP 子字符WP 字符WP 子字符
双向
WordPiece
分词器
BiWP 字符BiWP 子字符BiWP 字符BiWP 子字符

环境要求

  • transformers == 2.1.1
  • tensorflow < 2.0

下游任务

Naver 情感电影语料库 (NSMC)

  • 如果你想使用我们模型的子字符版本,请将subchar参数设置为True

  • 你可以通过为tokenizer参数输入bert来使用原始的BERT WordPiece分词器,如果使用ranked,则可以使用我们的双向WordPiece分词器。

  • tensorflow: 下载我们的预训练模型后,将它们放在krbert_tensorflow目录下的models目录中。

  • pytorch: 下载我们的预训练模型后,将它们放在krbert_pytorch目录下的pretrained目录中。

# pytorch
python3 train.py --subchar {True, False} --tokenizer {bert, ranked}

# tensorflow
python3 run_classifier.py \
  --task_name=NSMC \
  --subchar={True, False} \
  --tokenizer={bert, ranked} \
  --do_train=true \
  --do_eval=true \
  --do_predict=true \
  --do_lower_case=False\
  --max_seq_length=128 \
  --train_batch_size=128 \
  --learning_rate=5e-05 \
  --num_train_epochs=5.0 \
  --output_dir={output_dir}

PyTorch代码结构参考了https://github.com/aisolab/nlp_implementation 的结构。

NSMC 准确率

多语言BERTKorBERTKoBERTKR-BERT 字符级 WordPieceKR-BERT
字符级 双向 WordPiece
KR-BERT 子字符级 WordPieceKR-BERT
子字符级 双向 WordPiece
pytorch-89.8489.0189.3489.3889.2089.34
tensorflow87.0885.94n/a89.8690.1089.7689.86

引用

如果您使用这些模型,请引用以下论文:

@article{lee2020krbert,
    title={KR-BERT: A Small-Scale Korean-Specific Language Model},
    author={Sangah Lee and Hansol Jang and Yunmee Baik and Suzi Park and Hyopil Shin},
    year={2020},
    journal={ArXiv},
    volume={abs/2008.03979}
  }

联系方式

nlp.snu@gmail.com

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号