#BERT
bert_uncased_L-2_H-512_A-8 - 小型BERT模型在资源受限环境中的表现及应用策略
计算资源模型训练知识蒸馏开源项目BERTGLUE模型HuggingfaceGithub
24款小型BERT模型在低计算资源环境中通过知识蒸馏实现有效性能,支持与BERT-Base和BERT-Large相同的微调模式。这些模型为中小型机构的研究提供了创新支持,尤其是在GLUE测试中通过优化批大小和学习率等微调参数。这些模型为探索非传统扩容的创新应用提供了可能性。
bert-for-patents - Google基于亿级专利数据训练的大规模语言模型
BERTGithub开源项目专利模型自然语言处理Huggingface机器学习人工智能
bert-for-patents是Google基于BERT Large架构开发的专利文本分析模型,通过对超过1亿份专利文档的训练而成。该模型采用Apache-2.0许可证,适用于专利文本分析和信息提取任务。目前该模型已应用于欧盟联合研究中心的Patents4IPPC项目中。
bert-base-cased-squad2 - BERT模型实现英文文本智能问答与信息提取
开源项目BERT自然语言处理模型Huggingface问答模型Haystack深度学习Github
BERT base cased模型通过SQuAD v2数据集训练,专注于英文文本的智能问答能力。模型具备71.15%精确匹配率,支持Haystack和Transformers框架集成部署。作为Haystack生态系统的核心组件,为开发者提供可靠的文本理解和信息提取服务。
bert-base-spanish-wwm-cased-xnli - 基于XNLI数据集的西班牙语零样本分类模型
开源项目XNLIBERT零样本分类PyTorch模型HuggingfaceGithub自然语言推理
这是一个基于西班牙语BERT模型,通过XNLI数据集微调的零样本分类模型,在测试集上达到79.9%的准确率。该模型可通过Hugging Face平台实现西班牙语文本的多类别分类,支持自定义标签。模型基于MIT许可证开源,适用于文本分类的研究与应用开发。
gbert-large-paraphrase-cosine - GBERT-Large模型优化德语少样本文本分类
BERTGithub开源项目句子相似度SetFit德语模型自然语言处理Huggingface模型
gbert-large-paraphrase-cosine是一个基于deepset/gbert-large的德语句子转换模型,能将文本映射至1024维向量空间。该模型与SetFit配合使用,显著提升德语少样本文本分类效果。模型采用MultipleNegativesRankingLoss和余弦相似度作为损失函数,在精选的deutsche-telekom/ger-backtrans-paraphrase数据集上训练。评估显示,其在德语少样本场景中的表现优于多语言模型和Electra模型,为德语自然语言处理任务提供了有力工具。
russian_toxicity_classifier - 基于BERT的俄语有毒评论识别模型
文本分类开源项目BERT自然语言处理模型Huggingface毒性评论检测俄语Github
russian_toxicity_classifier是一个基于BERT的俄语有毒评论分类模型,通过微调Conversational RuBERT训练而成。该模型使用2ch.hk和ok.ru的合并数据集,在测试集上实现97%的准确率。它可轻松集成到Python项目中,用于识别和分类俄语文本的毒性。这一开源工具为研究人员和开发者提供了有效应对在线交流中有毒内容的解决方案。
regardv3 - BERT模型用于分析语言中人口群体偏见
偏见识别Huggingface情感分析开源项目模型Github语言分类自然语言处理BERT
该BERT分类器模型专门分析语言中的社会偏见。通过1.7K个偏见语言样本训练,它能测量特定人口群体的语言极性和社会认知。不同于一般情感分析,此模型聚焦识别文本中的人口统计学偏见,为控制性语言生成研究提供关键工具。
bert-base-german-uncased - 基于多源语料库训练的德语BERT预训练模型
数据预处理德语模型深度学习BERT自然语言处理HuggingfaceGithub开源项目模型
巴伐利亚州立图书馆MDZ团队开发的德语BERT模型,基于维基百科、EU图书和开放字幕等数据集训练,数据规模达16GB、23亿tokens。模型提供大小写敏感和不敏感两个版本,原生支持Transformers库,预训练序列长度512。经实测在命名实体识别、词性标注等任务中表现优异,可广泛应用于德语NLP领域。
LaBSE - 基于BERT的多语言句子编码引擎 助力跨语言语义检索
LaBSEBERT自然语言处理句子嵌入HuggingfaceGithub开源项目模型多语言
作为Google开源的多语言句子编码模型,LaBSE整合掩码语言建模与翻译语言建模技术,实现109种语言的高效句子嵌入。经CommonCrawl和维基百科数据集训练,可用于跨语言语义相似度计算和双语文本检索,并支持完整Python接口调用
unsup-simcse-bert-base-uncased - 无监督对比学习的BERT句向量提取模型
Github模型句子嵌入开源项目SimCSEHuggingface特征提取BERT自然语言处理
Princeton NLP小组开发的SimCSE模型采用BERT架构和无监督对比学习方法,通过英文维基百科数据训练而成。该模型能够有效提取文本特征,在保持语义对齐的同时优化了向量分布,主要应用于句子相似度计算和自然语言处理任务。
ICD-10-Code-Prediction - 基于临床BERT实现医疗诊断代码自动预测
ICD-10Github医疗诊断模型开源项目Huggingface临床预测BERT自然语言处理
这是一个基于MIMIC临床数据训练的BERT模型,用于自动预测医疗诊断文本对应的ICD-10代码。模型通过Transformers库实现,支持输出前5个最可能的预测结果。该工具可用于辅助医疗诊断编码工作,提升工作效率。
Italian_NER_XXL - 意大利实体识别模型,识别52类实体
BERT更新实体识别Italian_NER_XXL模型Github开源项目自然语言处理Huggingface
该人工智能模型能够识别52类意大利语实体,具备79%的准确率,并基于BERT技术进行持续更新。其在法律、金融和隐私等领域表现出色,提供多功能的实体识别支持。
gliner_base - 灵活的命名实体识别模型,适用各种场景
GLiNER开源项目BERT命名实体识别模型多语言Huggingface开源库Github
GLiNER是基于双向Transformer编码器的命名实体识别模型,能够识别多种实体类型,是传统NER模型的实用替代方案。与大型语言模型相比,GLiNER在资源受限场景中更高效且成本更低。该模型支持多语言并易于安装,用户可通过Python库轻松集成和使用。最新版本更新了多个模型参数,提升了性能,适合广泛的语言环境。该模型由Urchade Zaratiana等人开发,旨在提升科研和工业界的文本分析能力。
bert-multilingual-passage-reranking-msmarco - BERT多语言文本重排序模型优化搜索效果
Huggingface机器学习搜索引擎开源项目多语言模型Github模型训练BERT
这是一个支持100多种语言的BERT段落重排序模型,通过对搜索查询和文本段落的语义匹配分析,可将搜索结果相关性提升61%。模型在MS MARCO数据集上训练,可无缝集成到Elasticsearch中,适用于多语言搜索优化场景。实测表明,其在英语性能与单语模型相当,在德语等其他语言上表现更优。
gbert-base - 基于维基百科训练的高性能德语BERT预训练模型
德语模型自然语言处理开源项目模型Github机器学习HuggingfaceHaystackBERT
gbert-base是一款德语BERT预训练模型,由原始German BERT与dbmdz BERT团队于2020年10月联合发布。模型使用维基百科、OPUS和OpenLegalData数据集进行训练,在GermEval18和GermEval14基准测试中取得了显著优于前代模型的性能表现。作为开源项目,该模型采用MIT许可证,可用于多种德语自然语言处理应用场景。
clinical-assertion-negation-bert - 临床文本病症状态分类BERT模型
医疗诊断BERT临床医疗模型Github开源项目自然语言处理文本分类Huggingface
基于ClinicalBERT的预训练模型,专注于临床笔记中的病症状态分类。该模型可识别医疗记录中的病症状态,将其分为存在(PRESENT)、不存在(ABSENT)和可能存在(POSSIBLE)三类。通过在i2b2挑战赛数据集上微调,为临床文档的结构化处理提供支持。
ARBERTv2 - 基于大规模MSA语料的阿拉伯语双向Transformer模型
阿拉伯语自然语言处理开源项目模型Github机器学习Huggingface预训练语言模型BERT
ARBERTv2是一款针对阿拉伯语的高性能预训练语言模型。它基于243GB文本和278亿个标记的现代标准阿拉伯语(MSA)语料库训练,是ARBERT的升级版。在ARLUE基准测试中,ARBERTv2在48个分类任务中的37个上实现了最佳性能,总体评分达77.40,优于包括XLM-R Large在内的其他模型,展现了卓越的阿拉伯语理解能力。
bert-base-uncased - 基于Habana Gaudi处理器的BERT预训练语言模型配置
Optimum HabanaHuggingface混合精度训练开源项目模型HPUHugging FaceGithubBERT
这是一个专为Habana Gaudi处理器(HPU)优化的bert-base-uncased模型配置文件,包含GaudiConfig完整配置,集成了自定义AdamW实现和梯度裁剪等功能。通过Transformers库标准接口和混合精度训练,可在HPU上实现高性能的模型训练和部署。
bert-base-vietnamese-uncased - 增强越南语文本分析的BERT语言模型
Github模型开源项目trituenhantao.io越南语Huggingface筛选分类BERT
该BERT模型专为越南语的新闻和维基百科数据而设计,适用于序列分类任务。用户可以通过Python代码轻松导入和使用,提升文本分析和自然语言处理的效率。由trituenhantao.io团队于2020年发布在GitHub,用户可以轻松访问到详细的文档和支持。此模型为自然语言处理和机器学习研究者及开发者提供了强大可靠的工具。
bert-finetuned-japanese-sentiment - 日语电商评论情感分析BERT微调模型
BERTGithub开源项目日语处理自然语言处理Huggingface机器学习情感分析模型
该模型基于cl-tohoku/bert-base-japanese-v2微调,使用20,000条亚马逊日语评论进行训练。经过6轮训练后,模型能够将文本准确分类为正面、中性或负面情感,验证集准确率达81.32%。此模型主要适用于日语电商评论等领域的情感分析任务。
sentiment_analysis_model - BERT模型的情感分析应用
开源项目情感分析模型GithubHuggingface模型描述无监督学习预训练BERT
该情感分析模型基于BERT,在大规模英语语料的自监督训练基础上,具备双向语句理解能力,经过精细调优,专注于文本分类任务,该项目微调BERT模型以进行情感分析,可用于自动提取文本中的情感特征。
ner-bert-german - 基于BERT的德语命名实体识别模型实现精准NER分析
德语Github开源项目BERT命名实体识别自然语言处理模型Huggingface机器学习
该模型通过对bert-base-multilingual-cased进行微调,实现德语文本中位置、组织和人名的识别。模型在wikiann数据集训练后,总体F1分数达0.8829,在人名实体识别方面表现尤为出色。模型使用Adam优化器和线性学习率调度器,经7轮训练完成。
bert-base-greek-uncased-v1 - 基于BERT的希腊语语言模型实现
自然语言处理开源项目模型GithubHuggingface希腊语GreekBERT语言模型BERT
bert-base-greek-uncased-v1项目是一种基于BERT的希腊语语言模型,通过希腊语维基百科、欧盟议会文本和OSCAR语料库进行预训练,适用于PyTorch和TensorFlow 2平台。该模型现已集成于Hugging Face的Transformers库,并支持希腊语文本预处理以去除重音符号和转换为小写。这款模型在命名实体识别和自然语言推理任务上表现优越,是研究人员和开发人员的有效工具。
deberta-v2-xxlarge - 强大的自然语言处理模型,采用解耦注意力机制的BERT增强版
DeBERTaBERT深度学习模型Github开源项目预训练模型自然语言处理Huggingface
DeBERTa-v2-xxlarge是一个48层、1536隐藏层和15亿参数的高级语言模型。它通过解耦注意力和增强型掩码解码器优化了BERT和RoBERTa架构,使用160GB原始数据训练。该模型在SQuAD和GLUE等多个自然语言理解任务中表现优异,性能显著优于BERT和RoBERTa。DeBERTa-v2-xxlarge适用于复杂的自然语言处理任务,是研究和开发中的有力工具。
bert-large-finetuned-squad2 - BERT大规模问答模型的SQuAD2.0优化实现
SQuAD2.0问答系统BERT机器学习自然语言处理HuggingfaceGithub开源项目模型
bert-large-finetuned-squad2基于BERT大规模模型架构,通过SQuAD2.0数据集微调优化,实现了79.7%的F1评分。该模型支持transformers库快速部署,可识别问题是否有答案并提供准确回答。模型采用384序列长度和优化学习参数,在问答任务中展现稳定性能。
kobigbird-bert-base - 基于稀疏注意力的韩文BigBird预训练模型,优化长序列处理
长序列Github模型开源项目KoBigBird稀疏注意力Huggingface韩语BERT
该项目利用稀疏注意力机制,扩展BERT模型以处理更长的序列。KoBigBird模型通过从韩文BERT检查点暖启动,能够以更低的计算成本处理最长达4096的序列。推荐使用BertTokenizer进行标记化,支持更改注意力模式和参数配置,以优化不同任务的性能。
pebblo-classifier - 基于BERT的文本分类工具,优化协议文件整理
文本分类文档分类BERTGithub开源项目Pebblo ClassifierHuggingface机器学习模型
Pebblo Classifier是由DAXA.AI开发的文本分类模型,能够高效地对组织中的协议文档进行分类。该模型基于BERT技术,并从distilbert-base-uncased进行细调,支持21种文档标签分类,如董事会协议和咨询协议,简化文档整理过程。无需重新微调,用户可以通过简单代码实现快速集成。测试结果显示了模型的高精度和可靠性。
bert-large-nli-mean-tokens - 句子相似性嵌入与聚类应用
BERTHuggingface开源项目模型预训练模型句子嵌入Githubsentence-transformers句子相似性
该模型为sentence-transformers的一部分,能够将句子和段落转化为1024维的密集向量空间,用于聚类和语义搜索。虽然该模型已被标记为弃用且句子嵌入质量较低,推荐选择其他更优质的模型。适用的工具可以通过pip安装,并提供Python实现的代码示例。尽管如此,该模型仍作为一种句子嵌入学习方法的参考,对自然语言处理技术爱好者具有借鉴意义。
bluebert_pubmed_mimic_uncased_L-12_H-768_A-12 - 基于PubMed和MIMIC-III数据的BlueBERT医学自然语言处理模型
BERTHuggingface医学文本BlueBert模型Github开源项目自然语言处理临床笔记
BlueBERT是一个经过PubMed文献摘要和MIMIC-III临床笔记预训练的BERT模型,适用于医学自然语言处理。它使用NLTK进行文本预处理,提高了对医学文本的理解能力,是临床研究和医学信息检索的有效工具。
bert-base-uncased-sst2-unstructured80-int8-ov - BERT模型的非结构化剪枝与量化优化技术
量化开源项目模型蒸馏GithubHuggingfaceGLUE SST2OpenVINOBERT
该项目通过非结构化幅度剪枝、量化和蒸馏,在GLUE SST2数据集上优化了BERT模型。模型在Torch和OpenVINO IR模式下准确率达到0.9128,并在Transformer层中实现了80%的稀疏性。此项目适用于OpenVINO 2024.3.0及以上版本及Optimum Intel 1.19.0及更高版本,利用NNCF完成优化,同时提供详细的参数与训练步骤,以实现高效的文本分类。
bert-base-italian-xxl-uncased - 意大利BERT和ELECTRA模型的开源大规模数据集
BERTGithub开源项目巴伐利亚州立图书馆ELECTRA意大利语模型Huggingface模型
项目由巴伐利亚州立图书馆的MDZ数字图书馆团队开源,专注于训练大规模意大利语BERT和ELECTRA模型。数据来自Wikipedia和OPUS语料库,扩展至OSCAR语料库,数据规模从13GB到81GB不等,兼容PyTorch-Transformers。提供NER和PoS标注任务的结果示例,模型可在Huggingface model hub下载。欢迎通过GitHub参与和反馈。
BERT-Emotions-Classifier - 情感多标签分类的高效工具
BERTHuggingface情感分类Github开源项目模型多标签分类情感分析数据集
BERT-Emotions-Classifier是一个专注于多标签情感分类的BERT模型,基于sem_eval_2018_task_1数据集训练,能够识别愤怒、恐惧、喜悦等多种情感。适用于社交媒体和客户评论中的情感分析以及基于情感的内容推荐。尽管存在情感类别和输入长度的限制,但该模型在情感分析中表现优异,需注意可能的偏差问题。
bert-multilingual-go-emtions - 多语言情感分类模型,支持高效识别28种情感
多语言Github模型GoEmotions开源项目模型性能HuggingfaceBERT情感分类
该BERT模型经过微调,可在GoEmotions数据集上进行中英跨语言情感分类,支持28种情感类别,如喜悦、愤怒、爱等。模型在验证集上表现出85.95%的高准确率,训练过程结合了英语和机器翻译的中文样本,通过两阶段方法提升性能,包含初始训练和高置信度样本回馈再训练。
bert-medium-mnli - Pytorch平台上的MNLI任务BERT预训练模型
MNLI开源项目预训练模型BERTPytorch模型HuggingfaceGithub论文
本项目提供基于Pytorch、从Tensorflow检查点转换而来的BERT预训练模型,专门用于MNLI任务。此BERT变体在Google官方库的基础上,经过四轮训练,在MNLI和MNLI-mm测试中表现分别为75.86%和77.03%。项目着重展示紧凑模型在预训练中的有效性,更多信息及原始实现可访问相关GitHub库,重点在于轻量化处理及自然语言推理的应用潜力。结合最新研究成果,此预训练模型为自然语言理解提供了高效解决方案,显著改善文本分类性能。
bert-base-japanese-upos - 日语自然语言处理的BERT模型应用
POS标注开源项目模型日语GithubHuggingface依存解析Universal DependenciesBERT
此模型在日语维基百科文本上进行预训练,支持词性标注和依存解析等任务。它衍生自bert-base-japanese-char-extended,利用UPOS体系为短单位词标注。通过Python代码,用户能方便地进行文本处理和结构解析,适合希望高效处理日语文本的用户。该模型具有良好的兼容性,可通过Huggingface平台使用。
相关文章
Contrastors: 高效的对比学习工具包
3 个月前
AnglE:一个强大的句子嵌入训练和推理框架
3 个月前
FasterTransformer: 加速Transformer模型推理的高性能库
3 个月前
Text Embeddings Inference: 高性能文本嵌入推理解决方案
3 个月前
spacy-transformers: 在spaCy中使用预训练Transformer模型
3 个月前
VITS中文语音合成系统: 基于BERT和VITS的高质量TTS实践
3 个月前
TensorFlow自然语言处理教程:从基础到高级的NLP实践指南
3 个月前
语言模型中文认知能力分析:探索词汇覆盖率与阅读理解的关系
3 个月前
NLP-recipes: 微软的自然语言处理最佳实践与示例
3 个月前