#BERT

dpr-question_encoder-multiset-base - 多数据集训练的DPR问题编码器助力开放域问答
DPRHuggingface模型深度学习BERTGithub开源项目自然语言处理问答系统
DPR问题编码器是一个基于BERT的模型,专为开放域问答设计。它通过在Natural Questions、TriviaQA等多个数据集上训练,实现了问题到低维向量的高效映射。结合上下文编码器和阅读器,可构建完整的问答系统。在多个基准测试中,其top-k准确率达79-89%。这一强大工具为开放域问答研究提供了有力支持。
bert-base-japanese-whole-word-masking - 基于日语维基百科的BERT预训练模型 采用全词掩码技术
维基百科语料Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码
该BERT模型基于日语维基百科数据预训练,采用IPA词典和MeCab进行分词,并引入全词掩码技术。模型架构与BERT base一致,包含12层结构、768维隐藏状态和12个注意力头。训练语料来自2019年9月的日语维基百科,词表规模为32000。模型在Cloud TPUs上训练完成,遵循原始BERT的训练配置,并以CC BY-SA 3.0许可证发布。
olm-roberta-base-dec-2022 - OLM项目的更新模型,增强了语言任务表现
Huggingface开源项目模型OLM RoBERTaGithub数据集语言模型BERT评估结果
OLM项目的OLM RoBERTa/BERT模型于2022年12月更新,提升了在标准基准测试中的表现。该模型利用清理后的Common Crawl和Wikipedia数据集进行训练,适用于掩码语言建模和序列分类等任务,并在GLUE任务中表现出色,提供了详细的使用示例。
bert-base-arabertv02 - AraBERT:用于阿拉伯语理解的高性能预训练模型
模型BERTGithub开源项目Huggingface预训练语言模型自然语言处理阿拉伯语AraBERT
AraBERT是一系列基于BERT架构的阿拉伯语预训练语言模型。其中bert-base-arabertv02版本使用了77GB的大规模语料库进行训练,包含200M句子和8.6B词。这些模型在情感分析、命名实体识别和问答等多项任务中表现出色。AraBERT提供多个版本,包括base和large尺寸,以及预分割和未分割文本的变体,以满足不同应用需求。模型的优化和多样化为阿拉伯语自然语言处理研究和应用提供了有力支持。
dragon-plus-query-encoder - DRAGON+ 基于BERT的先进密集检索模型
模型BERTDRAGON+Github开源项目Huggingface特征提取密集检索自然语言处理
DRAGON+是一个基于BERT的先进密集检索模型,采用非对称双编码器结构。该模型从RetroMAE初始化,并在MS MARCO语料库的增强数据上进行训练。在MARCO Dev和BEIR基准测试中,DRAGON+展现出卓越性能,适用于文本检索和特征提取任务。研究人员和开发者可通过HuggingFace Transformers库轻松使用DRAGON+进行查询和上下文编码。
rubert-base-cased-nli-threeway - 开源俄语NLP模型:支持自然语言推理与零样本分类
模型NLIBERT零样本分类开源项目Huggingface自然语言推理Github俄语
这是一个基于DeepPavlov/rubert-base-cased微调的开源俄语NLP模型。它能够预测短文本间的逻辑关系(蕴含、矛盾或中性),支持自然语言推理和零样本文本分类任务。该模型在多个俄语NLI数据集上训练,并在各种评估集上展现出优秀性能。其多功能性和高效表现使其成为处理俄语文本理解任务的有力工具。
bert-large-NER - BERT大型版命名实体识别模型实现最先进性能
Huggingface模型机器学习BERT命名实体识别Github开源项目CoNLL-2003自然语言处理
bert-large-NER是一个基于BERT大型模型的命名实体识别(NER)工具。该模型在CoNLL-2003数据集上训练,可准确识别地点、组织、人名和其他杂项四类实体。模型支持通过Transformers pipeline轻松集成,适用于多种NER应用场景。在测试集上,bert-large-NER的F1分数达到91.7%,展现了卓越的实体识别能力。
msmarco-bert-base-dot-v5 - BERT语义搜索模型 用于高效文本编码和相似度计算
模型BERTGithub开源项目HuggingfaceMS MARCO数据集嵌入向量sentence-transformers语义搜索
msmarco-bert-base-dot-v5是一个语义搜索模型,基于sentence-transformers框架开发。该模型将文本映射到768维向量空间,在MS MARCO数据集上训练而成。它能高效进行文本编码和相似度计算,支持通过sentence-transformers或HuggingFace Transformers库集成使用。这个模型适用于语义搜索等多种自然语言处理任务,为开发者提供了便捷的文本分析工具。
bert-large-uncased-whole-word-masking - BERT大模型在Habana HPU上的性能优化配置
模型BERT开源项目HuggingfaceHugging Face混合精度训练Optimum HabanaHabana GaudiGithub
此项目为bert-large-uncased-whole-word-masking模型提供Habana Gaudi处理器(HPU)优化配置。通过GaudiConfig文件设置关键参数,如fused Adam优化器和混合精度训练,实现HPU上高效的模型操作。支持单HPU和多HPU环境,适用于多种下游任务。开发者可使用简单的命令行参数,轻松部署BERT大模型到Habana硬件上,获得显著的性能提升。
dpr-ctx_encoder-multiset-base - 基于BERT的开放域问答上下文编码模型
模型BERT开源项目文本编码信息检索HuggingfaceDPRGithub问答系统
该模型采用BERT架构,经由Natural Questions、TriviaQA等多个数据集训练而成。它能将文本段落高效编码为低维向量,是实现开放域问答的关键技术。作为密集段落检索(DPR)系统的重要组成部分,该模型在多个问答基准上取得了优异成绩,推动了开放域问答技术的发展。
rubert-tiny2-russian-emotion-detection - RuBERT-tiny2模型实现高精度俄语情感分析
模型BERT情感检测开源项目HuggingfaceAniemoreGithub俄语多标签分类
该项目开发了基于RuBERT-tiny2架构的俄语文本情感分析模型,可识别7种情感类别。模型在CEDR M7数据集上实现85%的多标签准确率和76%的单标签准确率。项目提供Python接口便于集成,同时开源了功能全面的Aniemore软件包。这一解决方案为俄语文本的情感分析任务提供了高效准确的工具支持。
bert-base - KLUE BERT base为韩语自然语言处理提供强大支持
语言模型Huggingface模型BERTGithub韩语开源项目自然语言处理KLUE
KLUE BERT base是一个专门针对韩语自然语言处理任务的预训练模型。它基于62GB多样化韩语语料库训练,采用创新的形态素子词分词技术。在KLUE基准测试中,该模型在主题分类、语义相似度和命名实体识别等多项任务上展现出优异性能。此外,研究团队也注重解决数据偏见和隐私保护问题,为韩语NLP领域提供了重要工具。
eccobert-base-cased-v1 - 专为18世纪英国文献分析打造的ECCO-BERT模型
模型BERTGithub开源项目Huggingface机器学习历史文献自然语言处理ECCO
ECCO-BERT base model (cased)是一款基于18世纪英国出版物数字化数据集ECCO训练的BERT模型。该模型与bert-base-cased规模相当,适用于ECCO数据集相关的多种任务微调。作为一种专门的自然语言处理工具,ECCO-BERT能够帮助研究人员更深入地分析18世纪英国文献,为历史文本研究和文化探索提供有力支持。
bert-base-turkish-cased - 巴伐利亚州立图书馆开发的土耳其语BERT预训练模型
土耳其语Huggingface模型机器学习BERTGithub开源项目自然语言处理Hugging Face
巴伐利亚州立图书馆MDZ数字图书馆团队开发的土耳其语BERT模型,使用多种语料库进行预训练。该模型基于35GB、44亿token的语料库,经过200万步训练,可通过Hugging Face Transformers库加载。它为土耳其语自然语言处理任务如词性标注和命名实体识别提供了基础支持。模型采用了OSCAR语料库、Wikipedia、OPUS语料库等多种资源,旨在提升土耳其语NLP任务的性能。
sbert-base-ja - 日语句向量模型:基于BERT的自然语言处理工具
模型日语SNLI数据集BERT语义表示开源项目Huggingface日语自然语言处理Github句子相似度
sbert-base-ja是一个日语句向量模型,基于BERT架构开发。该模型利用colorfulscoop/bert-base-ja作为预训练基础,并通过日语SNLI数据集进行了微调。它能够将日语文本转化为向量形式,主要应用于句子相似度计算和文本分类等领域。模型采用SentenceTransformer结构,为开发者提供了便捷的API,有助于在多种自然语言处理任务中快速部署和应用。
bert-base-parsbert-uncased - 基于BERT的波斯语自然语言处理模型ParsBERT
Huggingface波斯语言模型深度学习模型BERTGithub开源项目自然语言处理ParsBERT
ParsBERT是一个基于BERT架构的波斯语预训练模型,使用超过200万份多样化文档构建而成。该模型在情感分析、文本分类和命名实体识别等任务中表现卓越,优于多语言BERT等其他模型。ParsBERT采用全词遮蔽策略,为波斯语自然语言处理研究奠定了坚实基础,推动了相关技术的发展。
jina-bert-flash-implementation - 将BERT与Flash-Attention结合的高效模型实现
模型模型配置BERTFlash-AttentionGithub深度学习Huggingface开源项目GPU加速
本项目展示了一种将Flash-Attention技术与BERT模型相结合的实现方案。内容涵盖了依赖安装指南、参数配置说明和性能优化策略。核心功能包括Flash Attention的应用、局部注意力窗口的实现以及稀疏序列输出。此外,项目还引入了多项可调节的配置选项,如融合MLP和激活检查点,以适应各种训练环境和硬件条件。该实现的目标是提高BERT模型在处理大规模数据集时的训练效率和内存利用率。
bert-base-chinese-ws - BERT基础中文分词模型提升自然语言处理效率
模型BERTGithub繁体中文开源项目Huggingface自然语言处理transformer模型CKIP
CKIP实验室开发的BERT基础中文分词模型提供高效的中文文本处理功能,包括分词、词性标注和命名实体识别。该模型支持繁体中文,适用于多种自然语言处理任务。为获得最佳性能,推荐使用BertTokenizerFast作为分词器。该开源项目的详细信息和使用指南可在GitHub上查阅。
nb-bert-base-ner - 挪威语BERT命名实体识别模型 适用NorNE数据集
模型BERTGithub开源项目HuggingfaceNorNE挪威语命名实体识别自然语言处理
nb-bert-base-ner是一个基于BERT的挪威语命名实体识别模型,通过NorNE数据集微调而成。此模型能够识别挪威语文本中的人名、地名等命名实体。开发者可借助Hugging Face的transformers库轻松集成和使用,项目还提供了简洁的示例代码,便于快速实现挪威语命名实体识别功能。
bert-base-japanese-char-v2 - 基于日语维基百科的字符级BERT预训练模型
模型BERTGithub开源项目Huggingface机器学习日语模型维基百科数据集自然语言处理
本模型是基于日语维基百科训练的BERT预训练模型,采用字符级分词和全词掩码方法。它保持了原始BERT的12层结构和768维隐藏状态,使用MeCab和Unidic词典处理输入文本,词汇量为6144。训练在Cloud TPU上完成,遵循原始BERT的配置。该模型可广泛应用于日语自然语言处理领域,为研究和开发提供有力支持。
PropagandaTechniquesAnalysis-en-BERT - BERT驱动的英语新闻宣传技巧识别系统
宣传技术分析Huggingface模型BERTGithub开源项目自然语言处理新闻文章细粒度分析
PropagandaTechniquesAnalysis-en-BERT是一个专注于英语新闻文本分析的深度学习模型。该模型能够精确定位包含宣传技巧的文本片段,并识别出18种不同类型的宣传手法。研究团队采用人工标注的新闻语料库进行训练,并创新性地设计了多粒度神经网络架构,在多项BERT基准测试中表现出色。这一工具为新闻分析和媒体素养研究提供了有力支持。
bert-large-uncased-whole-word-masking - BERT大型无大小写全词掩码预训练模型
Huggingface模型深度学习BERT人工智能Github预训练模型开源项目自然语言处理
BERT-large-uncased-whole-word-masking是一个采用全词掩码技术的大型预训练语言模型。该模型基于BookCorpus和英文维基百科数据集进行自监督学习,具有24层结构、1024维隐藏层和3.36亿参数。它在序列分类、标记分类和问答等需要理解整句上下文的任务中表现优异,为自然语言处理应用提供了强大的英语语言表示能力。
sentence-bert-base-ja-mean-tokens - 日语Sentence-BERT模型实现句子向量化和相似度计算
特征提取Huggingface模型句向量模型BERTGithub语义相似度日语开源项目
sentence-bert-base-ja-mean-tokens是一个专为日语开发的Sentence-BERT模型,可将日语句子转换为向量表示。该模型适用于句子相似度计算、文本分类等NLP任务,提供Python接口,支持批量处理和GPU加速。作为日语自然语言处理的基础工具,它为开发者提供了高效的句子编码解决方案。
mobilebert-uncased - 轻量级BERT模型优化资源受限设备性能
模型压缩Huggingface模型深度学习BERTMobileBERTGithub开源项目自然语言处理
MobileBERT是BERT_LARGE的精简版本,采用瓶颈结构设计,平衡自注意力机制和前馈网络。这个紧凑型BERT模型专为资源受限设备优化,保持强大性能的同时大幅缩小模型体积。MobileBERT能在移动设备等计算资源有限的环境中高效运行,适用于各类NLP任务。
bert-finetuned-ner - BERT微调模型实现高精度命名实体识别
Huggingface模型BERT命名实体识别模型微调conll2003Github开源项目自然语言处理
该项目基于BERT模型,在conll2003数据集上进行微调,专注于命名实体识别任务。模型在评估集上展现出优异性能,精确率达0.9355,召回率为0.9514,F1分数为0.9433。经过3轮训练,采用Adam优化器和线性学习率调度器,模型在命名实体识别领域表现卓越。
bert-base-italian-xxl-cased - 基于大规模语料库的意大利语BERT预训练模型
模型意大利语模型BERTGithub开源项目HuggingfaceHugging FaceELECTRA自然语言处理
bert-base-italian-xxl-cased是巴伐利亚州立图书馆MDZ数字图书馆团队开发的意大利语BERT模型。该模型基于81GB语料库训练,包含131亿个标记,适用于命名实体识别、词性标注等多种意大利语自然语言处理任务。研究人员可通过Hugging Face Transformers库轻松使用此模型进行相关研究。
bert-base-japanese-char - 日语BERT模型采用字符级分词预训练
模型维基百科字符分词BERTGithub日语开源项目Huggingface机器学习
bert-base-japanese-char是一个基于日语维基百科训练的BERT模型,采用字符级分词。模型架构包括12层、768维隐藏状态和12个注意力头,词汇量4000。处理流程先用MeCab进行形态分析,再进行字符级分词。模型在约1700万个句子上训练100万步,每批次处理256个实例,每个实例包含512个标记。该模型适用于各种日语自然语言处理任务。
bert-tiny-finetuned-sms-spam-detection - BERT-Tiny模型实现高精度SMS垃圾信息检测
垃圾短信检测Huggingface模型数据集BERTGithub开源项目自然语言处理文本分类
该项目基于BERT-Tiny模型,针对SMS垃圾信息检测任务进行了微调。模型在验证集上实现了98%的准确率,展现了优秀的性能。作为一个轻量级解决方案,它特别适用于资源受限的环境,如移动设备上的实时垃圾短信过滤。
bert-base-parsbert-ner-uncased - ParsBERT-NER:高性能波斯语命名实体识别模型
模型命名实体识别BERTGithub波斯语开源项目Huggingface机器学习自然语言处理
ParsBERT-NER是一个专门用于波斯语命名实体识别的预训练模型。该模型基于BERT架构,在ARMAN和PEYMA数据集上进行微调,支持识别组织、地点、人名等多种实体类型。在多个波斯语NER基准测试中,ParsBERT-NER展现出卓越性能,F1分数最高达98.79%。研究人员和开发者可通过Hugging Face Transformers库轻松使用这一模型进行波斯语自然语言处理任务。
bert-turkish-text-classification - BERT土耳其语文本分类模型支持7大类别
模型文本分类TurkishBERTGithub开源项目Huggingface机器学习自然语言处理
BERT土耳其语文本分类模型通过微调Turkish BERT预训练模型而来,利用TTc4900数据集训练出支持7个类别的分类能力。涵盖世界、经济、文化等领域,开发者可借助Transformers库快速部署,实现土耳其语文本的高效分类。
arabic-ner - 阿拉伯语BERT命名实体识别模型支持九大类型
模型阿拉伯语命名实体识别BERTGithubHugging FaceHuggingface开源项目自然语言处理
该阿拉伯语命名实体识别模型基于BERT预训练,可识别9种实体类型,包括人名、组织、地点等。模型使用37.8万标记的语料训练,在3万标记验证集上F1分数达87%。项目提供完整示例,适用于多种阿拉伯语自然语言处理任务。
bi-encoder_msmarco_bert-base_german - 德语语义搜索和文档检索的先进模型 基于MSMARCO数据集训练
模型BERTGithub开源项目Huggingface信息检索文档检索语义搜索MSMARCO
这个模型专为德语语义搜索和文档检索设计。它使用机器翻译的MSMARCO数据集训练,结合硬负样本和Margin MSE损失,在非对称搜索任务中达到了先进水平。模型在germandpr-beir基准测试的NDCG指标上表现出色,优于其他多语言模型。它与Sentence Transformer库兼容,可广泛应用于各类信息检索任务。
bert-base-japanese-char-v3 - BERT-base日语字符级预训练模型
Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码字符级分词
bert-base-japanese-char-v3是一个基于BERT架构的日语预训练模型,采用字符级分词和整词掩码策略。模型在CC-100和日语维基百科上训练,具有12层结构和7027词汇量。它使用MeCab和Unidic 2.1.2进行分词,在TPU上训练了200万步,为日语NLP任务提供了有力支持。
bert_uncased_L-4_H-256_A-4 - 精简BERT模型系列适用于计算资源受限场景
模型BERTGithub开源项目Huggingface迁移学习模型压缩自然语言处理知识蒸馏
bert_uncased_L-4_H-256_A-4是BERT模型系列中的一款,专为计算资源受限环境设计。该模型保留了标准BERT架构和训练目标,但规模更小。它可进行常规微调,在知识蒸馏中表现尤佳。此项目旨在支持资源有限的机构开展研究,并鼓励探索创新方向,而非单纯扩大模型规模。
bert-base-personality - BERT模型驱动的Big Five人格特质预测工具
模型BERT迁移学习性格预测人工智能GithubHuggingface开源项目大五人格
bert-base-personality是一个利用BERT模型进行人格特质预测的开源工具。通过迁移学习和微调技术,该模型能够基于文本输入准确预测Big Five人格特质中的外向性、神经质、宜人性、尽责性和开放性五个维度。这个项目不仅展示了迁移学习在机器学习领域的应用潜力,同时也凸显了BERT模型在人格分析任务中的卓越表现。
bertweet-pt-sentiment - 基于BERTabaporu的葡萄牙语情感分析模型
pysentimiento模型情感分析BERT葡萄牙语GithubHuggingface开源项目自然语言处理
bertweet-pt-sentiment项目为葡萄牙语情感分析提供了解决方案。它基于BERTabaporu模型,通过pysentimiento库实现文本情感的三分类。该模型在葡萄牙语推文数据上进行了训练,特别适合社交媒体文本分析。项目设计简洁,易于集成,可用于各类葡萄牙语情感分析研究。