#中文预训练

YAYI2 - 中科闻歌研发的多语言开源大模型

Github开源项目开源性能提升YAYI2-30B多语言大语言模型中文预训练

YAYI 2，由中科闻歌研发，30B参数的多语言开源大模型。采用超过2万亿Tokens的多语言语料进行预训练，通过百万级指令和人类反馈强化学习微调，极大提升其在多领域的应用效率。现开源YAYI2-30B，助力全球中文AI技术的创新与进步。

rbt3 - 改进中文自然语言处理的全词掩蔽预训练模型

Github开源项目自然语言处理BERT模型Huggingface中文预训练全词遮蔽RoBERTa-wwm-ext

rbt3是重新训练的三层RoBERTa-wwm-ext模型，采用全词掩蔽技术的中文BERT预训练模型，设计用于提升中文自然语言处理的效率。该模型加强了对完整单词的识别，从而提高填空任务的准确性和语言理解能力。由专业团队在开源基础上开发，支持fill-mask任务，并提供多种资源以支持后续研究。例如，Chinese MacBERT和Chinese ELECTRA可以在不同应用场景中提升自然语言处理性能。利用TextBrewer工具，可在该模型中实现知识蒸馏，进一步扩展其应用潜力。

相关文章

Article Cover

YAYI2: 中科闻歌推出的新一代多语言开源大语言模型

Article Cover

YAYI2学习资料汇总-新一代多语言开源大语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号