#掩码语言模型
bert-large-uncased - 大规模无大小写区分BERT自然语言处理预训练模型
Huggingface模型深度学习BERT掩码语言模型Github预训练模型开源项目自然语言处理
bert-large-uncased是基于大规模英文语料预训练的自然语言处理模型。通过掩码语言建模和下一句预测任务,模型学习了双向语言表示。它拥有24层结构、1024维隐藏层和16个注意力头,总计336M参数。该模型适用于序列分类、标记分类和问答等下游任务的微调,也可直接用于掩码填充或作为特征提取器。
bert-base-chinese - BERT预训练模型在中文自然语言处理中的应用
Huggingface模型BERT预训练掩码语言模型Github开源项目自然语言处理中文模型
bert-base-chinese是一个专为中文自然语言处理设计的预训练BERT模型。该模型采用独立字词片段随机掩码训练方法,适用于掩码语言建模等任务。由HuggingFace团队开发,拥有12层隐藏层和21128词汇量。虽然可能存在潜在偏见,但为中文NLP应用提供了有力支持。研究人员可通过简洁的Python代码快速应用此模型。
twitter-roberta-large-2022-154m - 训练于154M推文的RoBERTa-large模型(2022年数据)及其应用
推特GithubRoBERTa-large模型开源项目Huggingface特征提取掩码语言模型自然语言处理
本项目提供了一种经过2022年12月底前154M条推文训练的RoBERTa-large模型,主要用于推文数据的理解和解析。它通过Twitter Academic API获取并过滤推文,实现了高级文本预处理、掩码语言模型和特征提取的应用示例。用户可借助标准Transformers接口进行推文分析及嵌入提取,同时适用于对比在不同时间段训练的模型的预测结果和困惑度得分,为研究人员提供更深入分析推特时间序列数据的工具。
albert-xxlarge-v2 - 基于大规模预训练的模型,提升英语语言任务表现
掩码语言模型Github开源项目ALBERT自监督学习Huggingface预训练模型句子顺序预测模型
该模型使用遮蔽语言建模和句子排序任务在大规模英语语料库上进行预训练,擅长捕捉句子双向语义。通过层共享设计,降低内存消耗,具备12个重复层、128个嵌入和4096个隐藏维度。适合句子分类、标记分类和问答等任务的微调,表现优异。
canine-s - 无显式分词的多语言字符级模型
CANINE变换器模型模型Github字符级别操作开源项目多语言处理掩码语言模型Huggingface
CANINE-s模型通过字符级建模无需显式分词,为104种语言提供高效的预训练语言表示。采用遮盖语言建模和下一个句子预测进行自监督训练,适合处理多语言语料库。与BERT不同,CANINE-s直接利用Unicode码点,简化输入处理。该模型旨在通过微调支持标记分类、序列分类和问答等任务,并能生成标准分类器需要的特征。在多语言Wikipedia数据集的支持下,CANINE-s展示了其在语言表示任务中的广泛应用潜力。
prot_bert_bfd - 用于自监督蛋白质序列分析的ProtBert-BFD模型
掩码语言模型Huggingface蛋白质序列特征提取开源项目模型Github语言模型ProtBert-BFD
ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。
chinese-macbert-base - 通过MLM误差校正任务优化中文BERT模型的性能
开源项目预训练模型掩码语言模型自然语言处理模型Huggingface句子排序预测GithubMacBERT
项目通过引入MLM误差校正预训练任务,减少预训练和微调过程中的差异,提升中文自然语言处理的模型表现。采用同义词工具进行相似词替换,改进传统BERT的[MASK]标记。此外,还结合全词掩码、N-gram掩码和句序预测技术,增强模型功能。MacBERT的架构与原始BERT兼容,为研究人员提供灵活的替换方案。