#IndicBERT
IndicBERTv2-MLM-only - 支持23种印度语言和英语的大规模多语言预训练模型
Github开源项目自然语言处理机器学习模型Huggingface多语言模型印度语言IndicBERT
IndicBERTv2-MLM-only是一个支持23种印度语言和英语的大规模多语言预训练模型。该模型基于IndicCorp v2数据集训练,包含2.78亿参数,采用掩码语言模型(MLM)目标。在IndicXTREME基准测试中,模型展现出优秀的多语言和零样本迁移能力。作为印度语言自然语言处理的重要资源,IndicBERTv2-MLM-only有望推动相关研究,缩小印度语言在NLP领域的差距。
indic-bert - 专注印度12种语言的轻量级ALBERT预训练模型
Github开源项目预训练模型自然语言处理模型Huggingface多语言模型印度语言IndicBERT
IndicBERT是一个基于ALBERT架构的多语言预训练模型,支持包括印地语、泰米尔语在内的12种印度主要语言。模型使用90亿规模的语料库训练,具有参数量小、性能优异的特点。在多项NLP评估任务中,其表现优于或持平于mBERT、XLM-R等主流多语言模型。