#全词掩码
chinese-bert-wwm-ext - 全词掩码中文BERT模型加速自然语言处理
模型BERT中文处理Github预训练模型全词掩码Huggingface开源项目自然语言处理
chinese-bert-wwm-ext是一个开源的全词掩码中文BERT预训练模型,致力于提高中文自然语言处理效率。该模型由哈工大讯飞联合实验室开发,通过全词掩码技术增强了对中文语境的理解。项目开放了预训练模型和相关资源,可应用于文本分类、情感分析、问答系统等多种中文NLP任务。研究人员可基于此模型进行定制化微调,以满足特定领域的应用需求。
bert-base-japanese-whole-word-masking - 基于日语维基百科的BERT预训练模型 采用全词掩码技术
维基百科语料Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码
该BERT模型基于日语维基百科数据预训练,采用IPA词典和MeCab进行分词,并引入全词掩码技术。模型架构与BERT base一致,包含12层结构、768维隐藏状态和12个注意力头。训练语料来自2019年9月的日语维基百科,词表规模为32000。模型在Cloud TPUs上训练完成,遵循原始BERT的训练配置,并以CC BY-SA 3.0许可证发布。
bert-base-japanese-char-v3 - BERT-base日语字符级预训练模型
Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码字符级分词
bert-base-japanese-char-v3是一个基于BERT架构的日语预训练模型,采用字符级分词和整词掩码策略。模型在CC-100和日语维基百科上训练,具有12层结构和7027词汇量。它使用MeCab和Unidic 2.1.2进行分词,在TPU上训练了200万步,为日语NLP任务提供了有力支持。
bert-base-japanese-v2 - 日语BERT预训练模型:全词屏蔽和Unidic分词
模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型
bert-base-japanese-v2是基于日语维基百科预训练的BERT模型,采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词,词表大小为32768。模型在512个token实例上进行了100万步训练,耗时约5天。该模型适用于多种日语自然语言处理任务,为研究人员和开发者提供了强大的日语语言理解工具。
chinese-roberta-wwm-ext-large - 中文自然语言处理的全词掩码预训练模型
BERT开源项目预训练模型模型GithubHuggingface全词掩码知识蒸馏中文自然语言处理
中文BERT全词掩码预训练模型加速中文自然语言处理,提升精准语义理解。基于Google BERT并结合全词掩码策略,其在文本分类、情感分析以及问答系统等多种NLP应用中表现优异,是探索中文语言理解的有力工具。
chinese-bert-wwm - 基于全词掩码技术的中文自然语言处理模型
BERT全词掩码Github开源项目中文自然语言处理Huggingface机器学习预训练模型模型
chinese-bert-wwm 是一个采用全词掩码技术的中文 BERT 预训练模型。该模型由哈工大讯飞联合实验室(HFL)开发,基于 Google BERT 架构,通过全词掩码方式优化中文语言理解能力。模型支持文本分类、命名实体识别等自然语言处理任务,是 MacBERT、ELECTRA 等中文预训练模型系列的重要组成部分。