#印度语言
IndicBERTv2-MLM-only - 支持23种印度语言和英语的大规模多语言预训练模型
模型Github多语言模型印度语言开源项目Huggingface机器学习IndicBERT自然语言处理
IndicBERTv2-MLM-only是一个支持23种印度语言和英语的大规模多语言预训练模型。该模型基于IndicCorp v2数据集训练,包含2.78亿参数,采用掩码语言模型(MLM)目标。在IndicXTREME基准测试中,模型展现出优秀的多语言和零样本迁移能力。作为印度语言自然语言处理的重要资源,IndicBERTv2-MLM-only有望推动相关研究,缩小印度语言在NLP领域的差距。
IndicNER - 面向11种印度语言的多语言命名实体识别模型
模型IndicNERGithub多语言模型印度语言开源项目Huggingface命名实体识别自然语言处理
IndicNER是一个针对11种印度语言开发的命名实体识别模型。该模型通过数百万句子的微调训练,并在人工标注测试集和多个公开数据集上进行了性能评估。IndicNER支持阿萨姆语、孟加拉语、古吉拉特语等多种印度语言,能够有效识别句子中的命名实体。作为一个基于最新深度学习技术的工具,IndicNER为印度语言的自然语言处理研究和应用提供了有力支持。
indic-bert - 专注印度12种语言的轻量级ALBERT预训练模型
IndicBERT多语言模型开源项目预训练模型Github模型自然语言处理Huggingface印度语言
IndicBERT是一个基于ALBERT架构的多语言预训练模型,支持包括印地语、泰米尔语在内的12种印度主要语言。模型使用90亿规模的语料库训练,具有参数量小、性能优异的特点。在多项NLP评估任务中,其表现优于或持平于mBERT、XLM-R等主流多语言模型。
muril-large-cased - 支持17种印度语言的BERT大规模预训练模型
多语言开源项目预训练模型Github模型MuRIL自然语言处理Huggingface印度语言
MuRIL是基于BERT large架构开发的印度语言预训练模型,支持17种印度语言及其音译版本。模型通过整合翻译数据和音译语料进行训练,在PANX和问答等多项XTREME基准测试中超越XLM-R large的性能表现,可广泛应用于印度语言相关的自然语言处理任务。
indictrans2-en-indic-1B - 支持22种印度官方语言双向翻译的开源机器翻译模型
Github模型开源项目印度语言IndicTrans2多语言模型Huggingface机器翻译人工智能
IndicTrans2是一个开源机器翻译模型,专注于英语和22种印度官方语言之间的翻译。该模型基于Transformer架构,拥有11亿参数,支持多种印度文字系统,包括印地文、泰米尔文和泰卢固文等。IndicTrans2提供HuggingFace接口,便于开发者集成使用。模型在多个翻译基准测试中表现出色,适用于各种印度语言翻译场景。
muril-base-cased - MuRIL:适用于多种印度语言的多语言BERT模型
Github模型开源项目迁移学习印度语言MuRILHuggingface自然语言处理多语言表征
MuRIL是一种专为17种印度语言及其音译数据预训练的BERT模型。此模型利用公共数据集和新颖的训练方法,在低资源语言处理上表现优异。MuRIL在多个基准任务中超越了传统的mBERT模型,适用于印度语言的多种NLP任务,并附带预处理模块及使用指南以支持有效应用。