#BERT

UltraFastBERT - 指数级加速的BERT语言模型训练与推理方案
Github开源项目神经网络机器学习语言模型BERTUltraFastBERT
UltraFastBERT是一个开源项目,旨在通过创新的快速前馈(FFF)层设计实现BERT语言模型的指数级加速。项目提供了完整的训练代码,以及在CPU、PyTorch和CUDA平台上的高效实现。包含训练文件夹、各平台基准测试代码,以及UltraFastBERT-1x11-long模型的配置和权重,可通过HuggingFace轻松加载使用。研究人员可以方便地复现结果,并进一步探索该突破性技术在自然语言处理领域的广泛应用潜力。
KR-BERT - 高效小型韩语预训练模型
Github开源项目深度学习自然语言处理BERTKR-BERT韩语模型
KR-BERT是首尔国立大学开发的韩语特定BERT模型,采用双向WordPiece分词技术,支持字符和子字符级处理。该模型在词汇量和参数规模上经过优化,在多项下游任务中表现出色,为韩语自然语言处理提供高效准确的解决方案。
ColBERT - 基于BERT的快速大规模文本检索模型
Github开源项目自然语言处理BERTColBERT信息检索向量相似度
ColBERT是一种基于BERT的检索模型,能在数十毫秒内实现大规模文本集合的高效搜索。该模型采用细粒度的上下文后期交互技术,将段落编码为令牌级嵌入矩阵,在保持检索质量的同时提高效率。ColBERT具备索引、检索和训练功能,适用于多种信息检索任务。模型提供预训练checkpoint和Python API,方便研究人员和开发者在实际项目中快速应用。
llms - 大型语言模型的原理与实践应用全面解析
Github开源项目自然语言处理GPT语言模型TransformerBERT
本项目全面介绍大型语言模型(LLMs)的基本概念、应用场景和技术演进。内容涵盖统计语言模型、神经网络语言模型,以及基于Transformer的预训练模型如GPT和BERT等。系统讲解LLMs核心原理,并探讨模型评估、文本生成和提示工程等实用技术。同时展示LLMs在计算机视觉等领域的创新应用,通过理论与实践结合,为读者提供深入了解LLMs技术的全面指南。
bert-as-language-model - 将BERT用作双向语言模型的开源实现
Github开源项目语言模型BERT概率计算双向上下文句子困惑度
该项目展示了BERT模型作为双向语言模型的实现方法。通过计算句子概率和困惑度,可评估文本质量。项目提供Web演示供用户体验。该实现充分利用BERT的上下文理解能力,提高了句中各词概率预测的准确性,从而在语言建模任务中实现更佳效果。
RobBERT - 为荷兰语自然语言处理提供强大基础的预训练模型
Github开源项目自然语言处理预训练BERTRobBERT荷兰语模型
RobBERT是基于RoBERTa架构的荷兰语预训练语言模型,在多项荷兰语自然语言处理任务中展现出卓越性能。该模型在39GB荷兰语语料库上进行预训练,可用于情感分析、命名实体识别和词性标注等任务,尤其在小规模数据集上表现突出。RobBERT为荷兰语自然语言处理的研究与应用奠定了坚实基础。
academic-budget-bert - 学术预算下的BERT模型高效训练方案
Github开源项目深度学习自然语言处理微调预训练BERT
该项目提供一套脚本,用于在有限计算资源和时间预算下预训练和微调BERT类模型。基于DeepSpeed和Transformers库,项目实现了时间感知学习率调度和混合精度训练等优化技术。此外,还包含数据预处理、检查点保存和验证调度等功能,并提供训练命令生成工具。这些方法使研究人员能在学术预算限制内高效训练大型语言模型。
RetroMAE - 创新的检索导向语言模型预训练技术
Github开源项目预训练模型自然语言处理BERT信息检索RetroMAE
RetroMAE是一种创新的检索导向语言模型预训练方法。通过掩码自编码器技术,该方法在MS MARCO和BEIR等基准测试中取得了显著性能提升。项目开源了预训练模型和微调工具,并提供了详细使用说明。RetroMAE在监督检索任务中表现卓越,同时展现出优秀的零样本迁移能力,为信息检索研究带来新的突破。项目提供了多个预训练模型,包括在维基百科和图书语料上预训练的基础版本,以及在MS MARCO数据集上微调的特定版本。研究人员可以通过Hugging Face轻松加载这些模型,进行实验或进一步改进。
Luotuo-Text-Embedding - 基于OpenAI API蒸馏的开源中文文本嵌入模型
Github开源项目OpenAIBERT文本嵌入Luotuo Embedding骆驼
Luotuo-Text-Embedding是一个从OpenAI API蒸馏的开源中文文本嵌入模型。它基于BERT和GLM架构,将文本转化为1536维向量。该模型在文本可视化、相关性测试、模糊搜索和聚类等场景中表现优异。项目提供详细教程和可视化工具。
fastHan - 多任务中文NLP工具包
Github开源项目微调BERT中文自然语言处理多任务模型fastHan
fastHan是一个基于BERT的多任务中文NLP工具包,支持分词、词性标注、依存分析和命名实体识别等任务。它能处理现代汉语和古汉语,还可进行中文AMR解析。fastHan采用联合训练模型,在多个数据集上表现优异。该工具使用方便,支持GPU加速,并提供模型微调功能,适用于各种中文NLP应用场景。
transfomers-silicon-research - Transformer模型硬件实现研究进展
Github开源项目神经网络自然语言处理TransformerBERT硬件加速
本项目汇集了Transformer模型硬件实现的研究资料,包括BERT及其优化方案。内容涵盖算法-硬件协同设计、神经网络加速器、量化和剪枝等技术。项目提供了详细的论文列表,涉及FPGA实现、功耗优化等多个领域,全面展示了Transformer硬件加速的最新研究进展。
Cemotion - 高效中文情感分析和分词工具库
Github开源项目BERT中文分词情感分析中文NLPCemotion
Cemotion是一个Python中文NLP库,主要用于情感分析和通用领域分词。该库采用BERT模型训练,可为中文文本提供情感倾向置信度。新增的Cegementor类使用BAStructBERT模型进行语义分词。Cemotion支持批量处理和多平台部署,可自动调用GPU加速。2.0版本在性能和准确度方面有所提升。
transformer-models - MATLAB深度学习变换器模型实现库
Github开源项目深度学习自然语言处理TransformerBERTMATLAB
该项目提供MATLAB环境下的多种深度学习变换器模型实现,包括BERT、FinBERT和GPT-2。支持文本分类、情感分析、掩码标记预测和文本摘要等自然语言处理任务。项目特点包括预训练模型加载、模型微调、详细示例和灵活API,可用于研究和实际应用。
bert-classification-tutorial - BERT与Transformers库实现的新闻文本分类项目
Github开源项目深度学习自然语言处理BERT文本分类预训练语言模型
这是一个基于BERT模型的现代化文本分类实现项目。项目采用最新的Python、PyTorch和Transformers库,为自然语言处理任务提供了高质量模板。完整流程涵盖数据准备、模型训练和评估,并具有清晰的代码结构和详细说明。虽然主要针对livedoor新闻语料库的分类任务,但也易于适应其他文本分类需求。
BERT-GPU - 单机多GPU加速BERT预训练的开源实现
Github开源项目深度学习自然语言处理BERT数据并行多GPU预训练
BERT-GPU项目为BERT模型在单机多GPU环境下的预训练提供了开源实现。该项目无需Horovod即可实现数据并行,通过增加GPU数量扩大批处理规模,从而加速训练过程。项目包含详细的训练流程和参数配置说明,并提供了下游任务的实验结果。这种方法在维持模型性能的同时,有效提升了预训练效率。
ernie - 简化BERT模型的文本分类与预测工具
Github开源项目模型微调BERT预测Ernie句子分类
Ernie是一个基于BERT的Python库,为文本分类和预测任务提供简洁接口。它支持多种预训练模型,允许微调和自定义。Ernie具备灵活的文本分割和结果聚合策略,能够处理长文本,并提供模型保存、加载和自动保存功能。这个工具适用于情感分析、文本分类等多种自然语言处理任务,为NLP研究和开发提供了便捷的解决方案。
BertBasedCorrectionModels - 基于BERT的中文文本纠错模型集合
Github开源项目PyTorch模型训练BERT文本纠错中文拼写检查
BertBasedCorrectionModels是一个使用PyTorch实现的中文文本纠错项目。该项目集成了多个基于BERT的模型,包括SoftMaskedBert、BERT4CSC和MACBERT4CSC,用于检测和纠正中文文本错误。项目提供了训练和推理流程,并包含详细的使用说明和实验数据。这个开源工具主要面向需要中文文本纠错功能的研究人员和开发者。
electra-base-italian-xxl-cased-discriminator - 意大利ELECTRA模型提升语言理解性能的理想工具
Github开源项目BERT模型Huggingface训练数据意大利ELECTRABavarian State Library
意大利ELECTRA模型基于丰富的意大利语料库,旨在增强语言理解。该模型由拜仁州立图书馆的MDZ Digital Library团队开放,通过PyTorch-Transformers的兼容权重进行支持。使用81GB的数据进行训练,达到百余万步,使其在命名实体识别和词性标注等任务上表现优异。所有资源均可在Huggingface模型中心获取,便于快速集成到各类自然语言处理应用中。
bert-base-uncased-squad-v1 - BERT模型在SQuAD数据集上的微调应用
Github开源项目模型微调问答BERT模型HuggingfaceSQuAD亚马逊雨林
此项目通过在SQuAD v1数据集上微调BERT-base模型,提升其在问答任务中的表现。模型无大小写区分,经过优化训练取得了在Exact Match和F1上的优异成绩。训练环境为Intel i7-6800K CPU及双GeForce GTX 1070显卡。此模型适用于自然语言处理的问答应用,具备良好的上下文理解能力。
bert-base-multilingual-cased-pos-english - BERT多语言模型优化后的英文词性标注应用
Github开源项目多语言BERT模型transformersHuggingface词性标注Penn TreeBank
该模型为多语言BERT,经过特别优化用于英语的词性标注,基于Penn TreeBank训练,达成96.69的F1得分。使用者可以通过transformers管道快速应用此模型,并结合AutoTokenizer和AutoModelForTokenClassification进行高效处理。该模型已在NAACL'22大会的研究成果中使用,适合于高需求精度的词性标注任务,尤其在专业和学术领域。描述中应注重客观性,避免主观夸大。
deberta-xlarge-mnli - 高性能自然语言处理模型面向多任务学习优化
人工智能Github开源项目自然语言处理机器学习BERT模型DeBERTaHuggingface
DeBERTa-xlarge-mnli是一个经过MNLI任务微调的大型语言模型。该模型采用解耦注意力机制和增强型掩码解码器,在多项NLU任务中表现优异。它在SQuAD、GLUE基准测试等任务上的成绩超越了BERT和RoBERTa,为复杂的自然语言理解应用提供了强大支持。
bert-base-indonesian-1.5G-sentiment-analysis-smsa - BERT基础印尼语情感分析模型实现高精度文本分类
Github开源项目机器学习BERT模型情感分析Huggingfaceindonlu印尼语
这是一个基于cahya/bert-base-indonesian-1.5G模型在indonlu数据集上微调的印尼语情感分析模型。在评估集上,该模型实现了93.73%的准确率,为印尼语文本分类任务提供了高效解决方案。模型使用Adam优化器和线性学习率调度器,通过10轮训练达到了稳定的性能表现。
ner-bert-base-cased-pt-lenerbr - 葡萄牙语法律文本的BERT命名实体识别模型
Github开源项目BERT模型HuggingfaceNER葡萄牙语法律领域LeNER-Br
这是一个针对葡萄牙语法律文本的命名实体识别模型,基于BERT架构在LeNER-Br数据集上微调而来。模型在测试集上取得了89.26%的F1分数,可识别多种法律实体类型,包括判例、法规、组织机构等。该模型为葡萄牙语法律文本分析提供了有力支持,可通过HuggingFace平台或Python代码进行使用。
bert-base-thai-upos - 基于泰语维基百科预训练的BERT词性标注与依存分析模型
Github开源项目BERT模型HuggingfaceWikipedia词性标注依存句法分析泰语
bert-base-thai-upos是一个在泰语维基百科语料上预训练的BERT模型,专注于词性标注和依存句法分析。该模型采用通用词性(UPOS)标签集,可通过Transformers库或esupar工具轻松集成。它为泰语自然语言处理任务提供了可靠的基础,尤其适合需要精确词性和句法信息的应用场景。研究人员和开发者可以利用这一模型来增强泰语文本分析能力。
bert-base-swedish-cased-ner - BERT基础的瑞典语命名实体识别模型
Github开源项目自然语言处理BERT模型命名实体识别HuggingfaceALBERT瑞典语言模型
bert-base-swedish-cased-ner是瑞典国家图书馆开发的瑞典语命名实体识别模型。该模型基于BERT架构,使用大规模瑞典语语料库训练,并在SUC 3.0数据集上微调。它可识别人名、地点、组织等实体类型,支持瑞典语自然语言处理任务。研究人员可通过Hugging Face Transformers库调用此模型进行命名实体识别。
jobbert_skill_extraction - 用于提取职缺中硬性与软性技能的全新数据集
Github开源项目BERT模型Huggingface软技能SkillSpan技能提取硬技能
SKILLSPAN数据集解决了技能提取领域中的数据和标注不足问题,包含14,500句子和12,500个技能标注。基于为硬性和软性技能设计的标注指南,结合改进的BERT基线模型与领域适应的语言模型,提升了技能提取效率。
kobert-base-v1 - 为韩语自然语言处理优化的BERT模型
Github开源项目深度学习自然语言处理机器学习BERT模型Huggingface韩语
KoBERT是SKT Brain开发的韩语BERT模型,针对韩语特性进行了优化。这一预训练模型为文本分类、命名实体识别等韩语自然语言处理任务提供了有力支持。作为开源项目,KoBERT在GitHub上提供了完整代码和文档,方便研究人员和开发者使用和研究。
sentiment_analysis_generic_dataset - BERT微调模型实现精准文本情感分析
Github开源项目预训练模型自然语言处理BERT模型情感分析Huggingface文本分类
该项目基于BERT预训练模型,专门针对情感分析任务进行微调。模型使用bert-base-uncased作为基础,通过掩码语言建模和下一句预测技术进行预训练,具备理解双向语境的能力。这种预训练方法使模型能为情感分析等下游任务提供有效特征。值得注意的是,此微调版本仅适用于情感分析,不推荐用于其他任务的进一步调整。
bert-base-japanese-v3 - 日语BERT预训练模型:全词掩码和大规模语料库训练
Github开源项目自然语言处理机器学习BERT模型Huggingface日语预训练模型词级别分词
bert-base-japanese-v3是基于BERT架构的日语预训练模型,采用Unidic 2.1.2词典分词和全词掩码技术。该模型在CC-100和日语维基百科语料上训练,拥有12层结构和768维隐藏状态。模型适用于各种日语自然语言处理任务,为研究和开发提供了强大支持。
clip-japanese-base - 日语CLIP模型,支持图像和文本的零样本分类与检索
Github开源项目BERT模型CLIP图像分类Huggingface文本检索视觉任务
该日语CLIP模型由LY Corporation开发,通过大约10亿对图文数据进行训练,适用于图像和文本的零样本分类与检索。该模型采用Eva02-B作为图像编码器,并使用12层BERT作为文本编码器。模型在图像分类中的准确率达到0.89,检索召回率为0.30。在评估中,使用了STAIR Captions和ImageNet-1K等数据集,表现优秀。模型已开源,遵循Apache 2.0协议。
bert-large-portuguese-cased - BERT大规模预训练模型助力巴西葡萄牙语NLP任务
Github开源项目预训练模型神经网络自然语言处理BERT模型Huggingface葡萄牙语
bert-large-portuguese-cased是一个专为巴西葡萄牙语开发的BERT预训练模型。该模型在命名实体识别、句子相似度和文本蕴含等多项NLP任务中表现出色。模型提供Base和Large两种版本,参数量分别为1.1亿和3.35亿。它支持掩码语言建模和BERT嵌入生成,为巴西葡萄牙语NLP研究奠定了坚实基础。
german-sentiment-bert - 基于BERT架构的德语情感分析模型
Github开源项目Python自然语言处理机器学习BERT模型Huggingface德语情感分类
该项目开发了一个基于BERT架构的德语情感分类模型。模型在184万个德语样本上训练,数据来源包括社交媒体和各类评论。提供Python包便于使用,支持情感预测和概率输出。在多个数据集上表现优异,最高F1分数达0.9967。可应用于对话系统等德语情感分析场景。
msmarco-MiniLM-L6-cos-v5 - 针对语义搜索的384维句子嵌入模型
Github开源项目自然语言处理语义搜索BERT模型Huggingfacesentence-transformers句子相似度
这是一个基于sentence-transformers的语义搜索模型,将文本映射至384维向量空间。该模型利用MS MARCO数据集的50万对查询-回答样本训练,可通过sentence-transformers或HuggingFace库轻松调用。它适用于多种语义搜索和文本相似度计算场景,能有效捕捉并表示文本的语义信息。
bert_uncased_L-12_H-768_A-12 - BERT迷你模型优化低资源环境下的应用
Github开源项目预训练BERT模型知识蒸馏计算资源Huggingface紧凑模型
BERT Miniatures提供24款小型BERT模型,适合计算资源有限的环境。利用知识蒸馏,这些模型可通过微调获得精确的结果,旨在支持低资源环境的研究并鼓励探索新的创新方向。用户可在官方BERT GitHub页面及HuggingFace平台下载这些模型。它们在GLUE基准测试中表现良好,可通过调整超参数实现最佳效果。详情请参考相关文献。
dragon-plus-context-encoder - 基于BERT的密集检索器实现多样化文档检索
Github开源项目模型训练BERT模型Huggingface特征提取密集检索DRAGON+
dragon-plus-context-encoder是一个基于BERT的密集检索器,由RetroMAE初始化并在MS MARCO语料库上进行了进一步训练。该模型使用非对称双编码器结构,在MARCO Dev和BEIR基准测试中分别达到39.0和47.4的得分。通过HuggingFace Transformers,研究人员可以轻松使用该模型进行查询和上下文编码,实现文本相似度计算和文档检索。此外,项目还提供了基于RoBERTa的变体,为不同需求的用户提供了选择。
nlp-recipes - 使用最新深度学习模型加速自然语言处理系统开发
Github开源项目深度学习BERTtransformersNLPAzure Machine Learning
该资源库提供构建NLP系统的示例和最佳实践,重点关注最新的深度学习方法和常见场景,如文本分类、命名实体识别和文本摘要。支持多语言,特别是利用预训练模型应对不同语言任务。内容基于与客户的合作经验,旨在简化开发过程,帮助数据科学家和工程师快速部署AI解决方案。