#掩码语言模型
twitter-roberta-large-2022-154m - 训练于154M推文的RoBERTa-large模型(2022年数据)及其应用
Github开源项目自然语言处理模型Huggingface推特特征提取掩码语言模型RoBERTa-large
本项目提供了一种经过2022年12月底前154M条推文训练的RoBERTa-large模型,主要用于推文数据的理解和解析。它通过Twitter Academic API获取并过滤推文,实现了高级文本预处理、掩码语言模型和特征提取的应用示例。用户可借助标准Transformers接口进行推文分析及嵌入提取,同时适用于对比在不同时间段训练的模型的预测结果和困惑度得分,为研究人员提供更深入分析推特时间序列数据的工具。
albert-xxlarge-v2 - 基于大规模预训练的模型,提升英语语言任务表现
Github开源项目预训练模型模型自监督学习HuggingfaceALBERT掩码语言模型句子顺序预测
该模型使用遮蔽语言建模和句子排序任务在大规模英语语料库上进行预训练,擅长捕捉句子双向语义。通过层共享设计,降低内存消耗,具备12个重复层、128个嵌入和4096个隐藏维度。适合句子分类、标记分类和问答等任务的微调,表现优异。
canine-s - 无显式分词的多语言字符级模型
Github开源项目多语言处理模型变换器模型Huggingface掩码语言模型CANINE字符级别操作
CANINE-s模型通过字符级建模无需显式分词,为104种语言提供高效的预训练语言表示。采用遮盖语言建模和下一个句子预测进行自监督训练,适合处理多语言语料库。与BERT不同,CANINE-s直接利用Unicode码点,简化输入处理。该模型旨在通过微调支持标记分类、序列分类和问答等任务,并能生成标准分类器需要的特征。在多语言Wikipedia数据集的支持下,CANINE-s展示了其在语言表示任务中的广泛应用潜力。
prot_bert_bfd - 用于自监督蛋白质序列分析的ProtBert-BFD模型
Github开源项目语言模型模型Huggingface特征提取蛋白质序列掩码语言模型ProtBert-BFD
ProtBert-BFD模型是一种利用Bert架构进行蛋白质序列自监督学习的预训练工具。该模型使用BFD数据集进行训练,能够捕捉蛋白质的生物物理特性,适用于特征提取和下游任务。其遮蔽语言建模方法无需人工标记即可从大规模数据中进行学习,成为生物信息学中理解蛋白质编码的有效工具。
chinese-macbert-base - 通过MLM误差校正任务优化中文BERT模型的性能
Github开源项目预训练模型自然语言处理模型Huggingface掩码语言模型句子排序预测MacBERT
项目通过引入MLM误差校正预训练任务,减少预训练和微调过程中的差异,提升中文自然语言处理的模型表现。采用同义词工具进行相似词替换,改进传统BERT的[MASK]标记。此外,还结合全词掩码、N-gram掩码和句序预测技术,增强模型功能。MacBERT的架构与原始BERT兼容,为研究人员提供灵活的替换方案。