#BERT

BERT-Tiny_L-2_H-128_A-2 - Google开发的压缩版BERT模型 2层128隐藏单元2注意力头
模型BERTGoogleGithub开源项目Huggingface机器学习自然语言处理人工智能
BERT-Tiny_L-2_H-128_A-2是Google研发的轻量级BERT模型。该模型采用2层结构、128个隐藏单元和2个注意力头,大幅降低了计算资源需求。它在保持BERT核心功能的同时,适用于资源受限环境,为快速部署和实时处理提供了高效解决方案。这一压缩版BERT模型在自然语言处理任务中平衡了性能和资源消耗。
bleurt-tiny-512 - 用于评估文本生成质量的轻量级模型
模型文本分类BLEURTBERT自然语言生成Github开源项目Huggingface机器学习
BLEURT-tiny-512是Google Research开发的轻量级文本评估模型,基于BERT架构。该模型经WMT Metrics共享任务数据训练,主要用于评估自然语言生成质量。它可应用于文本分类,在生成文本评估方面表现优异。BLEURT-tiny-512为需要准确衡量文本生成输出的场景提供了有效工具,但用户应注意模型可能存在的偏见和局限性。
bert-medium - BERT中型变体模型用于高效下游任务训练
模型BERTGithub预训练模型知识蒸馏开源项目Huggingface机器学习自然语言处理
bert-medium是Google BERT官方仓库发布的轻量级预训练模型变体。作为bert-tiny、bert-mini和bert-small系列中的一员,该模型在缩小规模的同时保持了良好性能。bert-medium采用8层结构,隐藏层大小为512,旨在为下游任务提供高效的训练基础。这一中型变体适合于需要在计算资源和模型表现之间寻求平衡的应用场景。
bert-base-japanese-v2 - 日语BERT预训练模型:全词屏蔽和Unidic分词
模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型
bert-base-japanese-v2是基于日语维基百科预训练的BERT模型,采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词,词表大小为32768。模型在512个token实例上进行了100万步训练,耗时约5天。该模型适用于多种日语自然语言处理任务,为研究人员和开发者提供了强大的日语语言理解工具。
bert_uncased_L-4_H-512_A-8 - BERT小型模型为资源受限环境提供高效自然语言处理解决方案
模型BERTGithub模型压缩GLUE知识蒸馏Huggingface开源项目自然语言处理
BERT小型模型是为计算资源受限环境设计的自然语言处理工具。它保留了标准BERT架构和训练目标,但模型规模更小,适用于多种应用场景。这种模型在知识蒸馏中表现出色,可利用更大、更精确的模型生成微调标签。其目标是促进资源有限机构的研究工作,并鼓励学术界探索模型创新的新方向,而非仅仅增加模型容量。
bert-base-german-cased - 高性能德语BERT模型助力自然语言处理应用
Huggingface模型深度学习BERTGithub开源项目自然语言处理德语模型Hugging Face
此德语BERT模型由巴伐利亚州立图书馆MDZ团队开发,基于维基百科、EU Bookshop等多源语料库训练而成。模型包含23.5亿个词元,提供大小写敏感和不敏感版本,支持PyTorch-Transformers框架。它适用于各类德语自然语言处理任务,在Hugging Face模型库开源,并获得Google TensorFlow Research Cloud支持。
bert-base-uncased-conll2003 - 基于BERT的CoNLL-2003数据集命名实体识别模型
Huggingface模型BERT命名实体识别模型微调Github开源项目CoNLL-2003自然语言处理
此模型是基于bert-base-uncased在CoNLL-2003数据集上微调的命名实体识别模型。经过2轮训练,模型在测试集上展现出优秀性能:精确率达0.8885,召回率为0.9046,F1分数为0.8965,准确率高达0.9781。模型采用Adam优化器和线性学习率调度器,为NLP领域提供了一个高效的命名实体识别解决方案。
politicalBiasBERT - BERT微调模型实现政治倾向文本自动分类
Huggingface模型机器学习BERTGithub开源项目自然语言处理政治偏见文本分类
politicalBiasBERT是一个基于BERT模型微调的政治倾向分析工具。该模型通过大量政治文本训练,能够自动将输入文本分类为左派、中立或右派。研究人员和开发者可使用简单的Python代码调用此模型,快速分析文本的政治倾向。这一工具为政治文本分析和舆情研究提供了有力支持。
bert-base-japanese-v3-ner-wikipedia-dataset - 基于维基百科数据集的日语命名实体识别BERT模型
固有表現認識Huggingface模型BERTGithub开源项目自然语言处理Wikipedia数据集大规模语言模型
本项目提供了一个基于BERT的日语命名实体识别模型,该模型使用维基百科数据集进行训练。模型能够识别日语文本中的人名、地名等实体,可通过Transformers库轻松调用。项目源自《大规模语言模型入门》一书,提供了使用示例和相关资源链接,采用Apache 2.0许可证。
ZeroShotBioNER - 高效生物医学命名实体识别的突破性方法
零样本学习Huggingface少样本学习模型生物医学文本识别BERT命名实体识别Github开源项目
ZeroShotBioNER是一种创新的生物医学命名实体识别模型,基于Transformer架构,支持零样本和少样本学习。该模型在25多个生物医学NER类别上训练,可识别疾病、化学物质、基因等多种实体。其突出优势在于能进行零样本推理,并仅需少量样本即可针对新类别进行微调。模型采用BioBERT架构,提供详细的使用说明和丰富的实体类别列表,为生物医学文本分析提供了强大工具。
rbt3 - 改进中文自然语言处理的全词掩蔽预训练模型
全词遮蔽RoBERTa-wwm-extGithub开源项目BERT自然语言处理中文预训练模型Huggingface
rbt3是重新训练的三层RoBERTa-wwm-ext模型,采用全词掩蔽技术的中文BERT预训练模型,设计用于提升中文自然语言处理的效率。该模型加强了对完整单词的识别,从而提高填空任务的准确性和语言理解能力。由专业团队在开源基础上开发,支持fill-mask任务,并提供多种资源以支持后续研究。例如,Chinese MacBERT和Chinese ELECTRA可以在不同应用场景中提升自然语言处理性能。利用TextBrewer工具,可在该模型中实现知识蒸馏,进一步扩展其应用潜力。
bert-base-french-europeana-cased - 基于欧洲数字图书馆的法语BERT模型
模型法语BERTEuropeanaHugging FaceGithubHuggingface开源项目自然语言处理
bert-base-french-europeana-cased是基于欧洲数字图书馆法语语料库训练的BERT模型。该模型使用63GB数据,包含110亿个标记,主要涵盖18-20世纪文本。在历史命名实体识别等任务中表现优异,可通过Hugging Face加载使用。此模型为处理历史法语文本提供了有力的语言理解支持。
bert-large-japanese-v2 - 更高效的日语文本处理BERT模型
整个单词遮盖Github词级标记模型开源项目云TPUHuggingface日本语BERT
结合Unidic 2.1.2词典和WordPiece算法进行词汇标记的BERT模型,通过在CC-100和Jawiki语料库上的训练,提升日语文本处理的效率,适用于多种自然语言处理任务。
bert_uncased_L-8_H-256_A-4 - 24种BERT小模型为计算资源有限的研究环境提供支持
计算资源预训练知识蒸馏开源项目BERT模型Huggingface模型压缩Github
此项目提供24种BERT模型,适用于计算资源有限的环境,可通过知识蒸馏进行有效的模型微调,支持低资源机构的研究工作。
chinese-roberta-wwm-ext-large - 中文自然语言处理的全词掩码预训练模型
BERT开源项目预训练模型模型GithubHuggingface全词掩码知识蒸馏中文自然语言处理
中文BERT全词掩码预训练模型加速中文自然语言处理,提升精准语义理解。基于Google BERT并结合全词掩码策略,其在文本分类、情感分析以及问答系统等多种NLP应用中表现优异,是探索中文语言理解的有力工具。
tweets-gender-classifier-distilbert - 基于DistilBERT的推文作者性别分类模型
BERT谷歌Github性别分类模型自然语言处理机器学习开源项目Huggingface
这是一个基于DistilBERT模型的推文性别分类方案,通过分析推文内容预测作者性别。项目以google-bert/bert-base-uncased为基础模型,使用准确率和F1分数作为评估指标。该开源项目遵循apache-2.0许可证,可应用于社交媒体用户分析、市场研究、受众画像等场景。
bert-large-cased-whole-word-masking-finetuned-squad - 全词掩码BERT大型模型在SQuAD数据集上优化的问答系统
BERT问答系统微调预训练模型Github模型自然语言处理Huggingface开源项目
BERT-large-cased-whole-word-masking-finetuned-squad是一个基于全词掩码技术的大型语言模型。该模型包含24层、1024维隐藏层和16个注意力头,共3.36亿参数。在BookCorpus和Wikipedia数据集预训练后,模型在SQuAD数据集上进行了微调,专门用于问答任务。采用双向Transformer架构,通过掩码语言建模和下一句预测任务训练,能有效理解文本语义并回答上下文相关问题。
bert-ner-japanese - 日本语固有表达识别,使用BERT模型实现
日本机器学习Huggingface模型固有表现抽取BERTGithub开源项目自然语言处理
本项目利用BertForTokenClassification模型,实现高效的日本语固有表达识别,可识别八种类别,如人名、法人名和地名等,以满足多样化的语言处理需求。该项目基于东北大学的日本语BERT模型和stockmarkteam的Wikipedia数据集进行训练,通过安装transformers库等,即可实现快速识别,适合应用于IT和学术研究领域的文本分析。
MiniLM-L12-H384-uncased - 轻量快速的预训练语言模型实现BERT级别性能表现
BERT开源项目深度学习MiniLM模型模型压缩Github自然语言处理Huggingface
MiniLM-L12-H384-uncased通过模型压缩技术将参数量降至33M,在保持与BERT相当性能的同时,运行速度提升2.7倍。模型在SQuAD 2.0和GLUE等自然语言理解任务中表现出色,可直接替代BERT,适用于对模型体积和运行效率敏感的场景。
distilbert-base-turkish-cased - 轻量级高性能土耳其语BERT模型
BERT开源项目土耳其语言模型深度学习模型模型蒸馏Github自然语言处理Huggingface
distilbert-base-turkish-cased是一个开源的土耳其语蒸馏BERT模型,通过知识蒸馏技术在保持与原始BERTurk相近性能的同时显著降低了模型规模。该模型在词性标注等任务上表现出色,超越了更大规模的XLM-RoBERTa模型,适用于土耳其语文本分类、命名实体识别等多种自然语言处理任务。
nomic-bert-2048 - 预训练BERT模型实现2048序列长度的上下文理解
BERT预训练模型Githubnomic-bert-2048模型自然语言处理机器学习开源项目Huggingface
nomic-bert-2048模型通过Wikipedia和BookCorpus数据集训练,采用改进的位置编码技术,支持2048长度的文本序列处理。在GLUE基准评测中展现出与传统BERT相当的性能,同时具备更强的长文本理解能力。该模型兼容标准BERT分词系统,适用于文本补全和分类等自然语言处理任务。
bert-base-german-dbmdz-uncased - 支持不区分大小写文本处理的德语BERT预训练模型
BERT德语无大小写区分Github模型自然语言处理机器学习开源项目Huggingface
这是一个专为德语设计的BERT预训练模型,主要特点是支持不区分大小写的文本处理。模型针对德语特点进行了优化,适用于各类德语自然语言处理任务,采用MIT许可证发布。该模型与dbmdz/bert-base-german-uncased模型相同,详细信息可参考其模型卡片。
rubert-tiny - 小型化俄英双语BERT模型支持多种自然语言处理任务
模型压缩句向量GithubBERT自然语言处理深度学习Huggingface开源项目模型
rubert-tiny是一个经过蒸馏的轻量级BERT模型,针对俄语和英语优化。模型大小仅45MB,参数量1200万,较基础BERT小10倍且速度更快。支持掩码填充、特征提取和句子相似度等NLP任务,适用于命名实体识别和情感分类等简单俄语任务。通过多语言语料库训练,可提供俄英双语对齐的句向量表示。
sbert_large_mt_nlu_ru - 大规模多任务俄语句子嵌入模型
BERT多任务学习开源项目模型句子嵌入Github自然语言处理俄语模型Huggingface
这是一个基于BERT架构的大规模多任务模型,用于生成俄语句子嵌入。模型采用平均池化策略处理token embeddings,已完成Russian SuperGLUE基准测试验证。通过HuggingFace模型库可实现多句俄语文本的嵌入计算。该模型由SberDevices团队开发,致力于提升俄语自然语言处理能力。
bert-base-polish-cased-v1 - 专门针对波兰语的BERT预训练基础模型
语言模型BERT波兰语开源项目模型机器学习Github自然语言处理Huggingface
bert-base-polish-cased-v1作为专门针对波兰语开发的BERT预训练语言模型,通过HuggingFace transformers库提供,采用了全词掩码技术,支持大小写敏感。模型训练语料包含经过去重的OpenSubtitles数据集、ParaCrawl语料库、波兰议会语料库和波兰维基百科等资源。在KLEJ基准测试中展现出良好的波兰语理解效果,特别适合序列分类和标记分类等自然语言处理任务。
bert_uncased_L-12_H-512_A-8 - 小型BERT模型适用于有限计算资源的高效预训练
紧凑模型开源项目模型GithubHuggingface预训练知识蒸馏计算资源BERT
该项目介绍了24种面向资源受限环境的小型BERT模型,支持低计算资源研究。模型遵循BERT标准架构,并在知识蒸馏中表现优异,可通过官方GitHub和HuggingFace平台获取,助力资源有限下的研究创新。
bert-base-uncased-mrpc - BERT文本语义对比模型在MRPC数据集实现86%准确率
BERT开源项目模型文本分类机器学习Github语义分析自然语言处理Huggingface
BERT-base-uncased经MRPC数据集微调后的文本语义分析模型,通过双向掩码语言建模实现句子对的语义等价性判断。模型在验证集达到86.03%准确率和90.42% F1分数,具备大小写不敏感特性,可广泛应用于文本语义理解任务。
stsb-bert-base - 基于BERT的文本向量化和语义相似度分析工具
句向量GithubBERT自然语言处理Huggingface开源项目模型语义相似度sentence-transformers
stsb-bert-base是一个已弃用的句子转换模型,基于BERT架构可将文本转化为768维向量表示。模型通过sentence-transformers或HuggingFace Transformers库提供支持,适用于文本聚类和语义搜索。尽管不再推荐使用,但其架构设计和实现方法对理解文本向量化技术具有重要参考意义。
bert-base-turkish-cased-ner - 土耳其语BERT命名实体识别模型实现99.61%准确率
土耳其语言模型Github命名实体识别BERT自然语言处理Huggingface模型训练开源项目模型
该项目提供了一个基于BERT的土耳其语命名实体识别模型。通过使用精选的土耳其NER数据集进行微调,模型能够识别人名、组织机构和地点等实体。在多个测试集上,模型展现出优异性能,总体F1分数为96.17%,准确率达99.61%。项目还提供了简洁的使用接口,便于集成到各种土耳其语自然语言处理任务中。
German_Semantic_STS_V2 - 德语语义相似度计算模型 实现文本搜索与聚类
GithubBERT自然语言处理Huggingface德语模型开源项目模型语义相似度sentence-transformers
这是一个专注于德语文本处理的语义模型,能够准确计算文本间的语义相似度。模型在德语基准测试中表现出色,相似度评分达到0.86,优于现有主流方案。主要应用于智能文本搜索、文档聚类等场景,并提供简单的集成方式。
bert-toxic-comment-classification - BERT模型在毒性评论分类中的应用与实现
文本分类机器学习GithubBERT毒性评论分类Huggingface模型训练开源项目模型
该项目基于BERT模型,通过fine-tuning实现毒性评论的智能分类。模型在1500行测试数据上达到0.95 AUC,采用Kaggle竞赛数据集训练。项目提供简洁的Python接口,便于开发者快速集成文本毒性检测功能。适用于构建在线社区、内容平台的评论审核系统。
bert-xsmall-dummy - 轻量级BERT模型构建与部署方法
BERT代码开发人工智能模型深度学习Github模型训练开源项目Huggingface
bert-xsmall-dummy项目展示了轻量级BERT模型的创建方法,通过BertConfig进行参数配置,实现基础BERT模型构建及PyTorch到TensorFlow的转换功能。该项目适用于模型原型设计和测试场景。
bert-base-turkish-uncased - 巴伐利亚州立图书馆开源的土耳其语预训练BERT模型
BERT开源项目自然语言处理深度学习模型Github土耳其语Hugging FaceHuggingface
巴伐利亚州立图书馆MDZ团队开发的土耳其语BERT模型,基于35GB语料库训练而成,涵盖OSCAR、维基百科及OPUS等多个数据集,包含44亿个标记。该模型采用Google TPU v3-8进行200万步训练,完全兼容PyTorch-Transformers框架,可应用于词性标注、命名实体识别等土耳其语自然语言处理任务。
tiny-bert-sst2-distilled - 轻量级BERT文本情感分类模型
BERT开源项目模型文本分类模型训练机器学习Github数据集微调Huggingface
tiny-bert-sst2-distilled模型通过对BERT基础版本进行蒸馏优化,专注于文本情感分类任务。该模型在SST-2评估集上达到83.26%的准确率,保持了不错的性能表现。模型架构采用2层transformer结构,隐藏层维度为128,具有轻量化特点,适合在计算资源有限的环境中部署使用。
chinese-bert-wwm - 基于全词掩码技术的中文自然语言处理模型
BERT全词掩码Github开源项目中文自然语言处理Huggingface机器学习预训练模型模型
chinese-bert-wwm 是一个采用全词掩码技术的中文 BERT 预训练模型。该模型由哈工大讯飞联合实验室(HFL)开发,基于 Google BERT 架构,通过全词掩码方式优化中文语言理解能力。模型支持文本分类、命名实体识别等自然语言处理任务,是 MacBERT、ELECTRA 等中文预训练模型系列的重要组成部分。
bert-base-multilingual-cased-finetuned-langtok - 基于多语言BERT的语言识别模型实现99.03%准确率
BERT语言识别Github开源项目微调自然语言处理Huggingface多语言模型模型
这是一个基于bert-base-multilingual-cased的语言识别微调模型。模型在评估集上的准确率为99.03%,F1分数达到0.9087。模型采用Adam优化器和线性学习率调度器,经过3轮训练完成。开发框架使用Transformers 4.44.2和PyTorch 2.4.1,可应用于语言识别相关任务。