#预训练语言模型

awesome-pretrained-chinese-nlp-models - 中文NLP预训练模型综合资源平台
预训练语言模型大模型中文NLP多模态模型开源模型库Github开源项目
awesome-pretrained-chinese-nlp-models提供多种中文自然语言处理预训练模型,涵盖基础大模型、对话型模型和多模态模型等。该平台不仅包括各模型的详细介绍、技术文档和下载链接,还定期更新,为研究人员和开发者提供全面的中文NLP资源。
PromptKG - 多方面探讨Prompt学习与知识图谱前沿技术及工具
PromptKG预训练语言模型知识图谱嵌入知识提示动态编辑Github开源项目
本页面全面展示了Prompt学习与知识图谱相关的研究成果,包括模型实现、基于预训练语言模型的知识图谱嵌入与应用、知识图谱动态编辑库以及入门教程。此外,还涵盖了零样本和少样本NLP、数据高效知识图谱构建方面的教程,并提供了有关Prompt调优、知识探测和知识图谱补全的系统性调查和研究论文列表。
LLMBook-zh.github.io - 大语言模型技术的发展与前景
大语言模型ChatGPTOpenAI预训练语言模型人工智能Github开源项目
本书全面介绍了大语言模型技术,包括基础原理、关键技术和应用前景。通过深入研究,大模型的发展历程得到探索,其中包含OpenAI的GPT系列模型和训练细节。本书适合具有深度学习基础的高年级本科生和低年级研究生,为科研人员提供指导,推动人工智能技术的进步。
TextPruner - 使用低成本且无需训练的方法优化预训练语言模型
TextPruner模型剪枝预训练语言模型PyTorchNLP任务Github开源项目
TextPruner提供低成本且无需训练的方法来优化预训练语言模型,通过减少模型尺寸加快推理速度。兼容多种NLU模型,提供用户友好的接口,支持词汇、Transformer和流水线剪枝。用户可以方便地根据需求自定义配置。详细文档和实验结果支持,帮助用户快速上手并验证性能提升。适用于Python 3.7及以上版本,依赖torch和transformers库。
Baichuan-7B - 开源中英双语大规模预训练模型,支持商用
Baichuan-7B预训练语言模型开源可商用中英双语Transformer结构Github开源项目
Baichuan-7B是由百川智能开发的开源可商用中英双语大规模预训练语言模型。基于Transformer结构,该模型在1.2万亿tokens上训练,拥有70亿参数,并提供4096长度的上下文窗口。在中文和英文的基准测试(C-Eval和MMLU)中表现出色。该模型可在Hugging Face和ModelScope平台上获取,适合开发者和研究人员使用。
Pretrained-Language-Model - 先进预训练语言模型与优化技术集合
预训练语言模型自然语言处理MindSporeTensorFlowPyTorchGithub开源项目
此开源项目汇集了多个先进的预训练语言模型和相关优化技术。包含200B参数中文语言模型PanGu-α、高性能中文NLP模型NEZHA、模型压缩技术TinyBERT和DynaBERT等子项目。这些模型在多项中文NLP任务中表现出色,支持MindSpore、TensorFlow和PyTorch等多种深度学习框架。
t-few - 参数高效微调方法优于GPT-3上下文学习
T-Few参数高效微调少样本学习自然语言处理预训练语言模型Github开源项目
t-few项目提出一种少样本参数高效微调方法,在多个NLP任务中表现优于GPT-3的上下文学习。项目开源代码包含环境配置、实验运行等功能,并在RAFT基准测试中达到领先水平。这为NLP领域少样本学习提供了高效且低成本的解决方案,研究人员可基于此进行深入研究。
HugNLP - 基于Hugging Face的全面NLP开发应用框架
HugNLPNLP预训练语言模型指令微调应用开发Github开源项目
HugNLP是基于Hugging Face的NLP开发应用库,为研究人员提供便利高效的开发环境。它集成了丰富的模型、处理器和应用模块,支持知识增强预训练、提示微调、指令调优等技术。该框架还包含参数高效学习、不确定性估计等工具,可用于构建多种NLP应用。HugNLP获得CIKM 2023最佳演示论文奖。
bert-classification-tutorial - BERT与Transformers库实现的新闻文本分类项目
BERT自然语言处理文本分类深度学习预训练语言模型Github开源项目
这是一个基于BERT模型的现代化文本分类实现项目。项目采用最新的Python、PyTorch和Transformers库,为自然语言处理任务提供了高质量模板。完整流程涵盖数据准备、模型训练和评估,并具有清晰的代码结构和详细说明。虽然主要针对livedoor新闻语料库的分类任务,但也易于适应其他文本分类需求。
PhoBERT - 为越南语自然语言处理带来革新
PhoBERT自然语言处理预训练语言模型越南语transformersGithub开源项目
PhoBERT是首个针对越南语的大规模预训练语言模型,基于RoBERTa架构开发。该模型在多项越南自然语言处理任务中展现出卓越性能,包括词性标注、依存句法分析、命名实体识别和自然语言推理。PhoBERT提供base和large两种版本,可通过transformers和fairseq库轻松集成使用,为越南语自然语言处理研究和应用开辟了新的可能。
opt-350m - Meta AI开发的开源预训练Transformer语言模型
模型GithubOPT开源项目Huggingface预训练语言模型机器学习自然语言处理人工智能
OPT-350m是Meta AI开发的开源预训练Transformer语言模型,在800GB多样化文本上训练。这个仅解码器模型采用因果语言建模,可用于文本生成和下游任务微调。OPT-350m致力于促进大型语言模型的可复现研究,但存在偏见等问题。研究人员可将其用于提示工程和文本生成,支持负责任的AI发展。
Clinical-Longformer - 基于Longformer的临床知识增强模型 提高医疗NLP任务效果
模型Clinical-Longformer开源项目Huggingface预训练语言模型长文本处理临床自然语言处理Github医疗信息学
Clinical-Longformer是一种临床知识增强的预训练语言模型,基于Longformer架构开发。该模型利用MIMIC-III临床笔记进行进一步预训练,可处理长达4,096个token的输入。在10个基准数据集上,Clinical-Longformer在多项任务中表现优于ClinicalBERT,包括命名实体识别、问答、自然语言推理和文本分类。这一改进为长文本临床NLP任务提供了更有效的工具,有望推动医疗领域自然语言处理技术的进步。
bert-base-arabic-camelbert-msa-ner - 现代标准阿拉伯语命名实体识别增强
开源项目阿拉伯语模型命名实体识别模型HuggingfaceCamel工具CAMeLBERTGithub预训练语言模型
项目基于CAMeLBERT模型提升现代标准阿拉伯语的命名实体识别性能,使用ANERcorp数据集进行微调以提高精度。可通过CAMeL Tools组件或transformers管道实现多用例应用。
deberta-v3-small - 微软开发的高效轻量级预训练语言模型 实现出色NLP性能
Huggingface注意力机制模型GithubDeBERTa开源项目自然语言处理微调预训练语言模型
DeBERTa-v3-small是微软开发的轻量级预训练语言模型,采用ELECTRA风格预训练和梯度解耦嵌入共享技术。该模型仅有44M参数,在SQuAD 2.0和MNLI等NLU任务上表现优异,接近或超越部分更大模型。DeBERTa-v3-small为追求效率与性能兼顾的NLP应用提供了新选择。
ClinicalBERT - 医疗领域专用BERT模型助力临床文本分析
预训练语言模型模型医疗人工智能GithubClinicalBERT电子病历Huggingface开源项目自然语言处理
ClinicalBERT是一款基于BERT架构的医疗领域自然语言处理模型。该模型利用12亿词的多中心疾病语料库进行预训练,并通过300多万患者的电子健康记录进行微调。ClinicalBERT采用掩码语言模型原理,适用于多种临床文本分析任务。研究人员可通过transformers库轻松调用此模型,为医疗AI研究提供有力工具。
bert-base-arabertv02 - AraBERT:用于阿拉伯语理解的高性能预训练模型
模型BERTGithub开源项目Huggingface预训练语言模型自然语言处理阿拉伯语AraBERT
AraBERT是一系列基于BERT架构的阿拉伯语预训练语言模型。其中bert-base-arabertv02版本使用了77GB的大规模语料库进行训练,包含200M句子和8.6B词。这些模型在情感分析、命名实体识别和问答等多项任务中表现出色。AraBERT提供多个版本,包括base和large尺寸,以及预分割和未分割文本的变体,以满足不同应用需求。模型的优化和多样化为阿拉伯语自然语言处理研究和应用提供了有力支持。
bros-base-uncased - 整合文本布局的文档信息提取预训练语言模型
模型文档信息提取光学字符识别开源项目Huggingface预训练语言模型文本布局分析BROSGithub
BROS是一种创新的预训练语言模型,结合了文本内容和空间布局信息,以提升文档关键信息提取的效果。该模型能够处理OCR识别后的文本和边界框数据,适用于多种文档分析任务,例如从收据中提取商品清单。BROS提供base和large两种规模的模型,参数量分别约为110M和340M。这一开源项目已在Hugging Face平台上发布,为研究人员和开发者提供了强大的文档信息提取工具。
flaubert_base_cased - FlauBERT 为法语自然语言处理提供基础支持的预训练模型
法语Huggingface模型FlauBERTGithub开源项目自然语言处理预训练语言模型FLUE
FlauBERT是基于大规模异构法语语料库训练的预训练语言模型,提供多种规模的版本。它配套FLUE评测基准,可通过Hugging Face的Transformers库便捷使用。FlauBERT为法语自然语言处理任务奠定了基础,适用于多种NLP应用场景。该项目包含从小型到大型的多种模型,为研究人员和开发者提供了灵活的选择。
bert-base-arabic-camelbert-mix-sentiment - CAMeLBERT微调的阿拉伯语情感分析模型
模型情感分析Github开源项目Huggingface预训练语言模型CAMeLBERT Mix SA自然语言处理阿拉伯语
这是一个基于CAMeLBERT Mix模型微调的阿拉伯语情感分析模型。该模型使用ASTD、ArSAS和SemEval数据集进行微调,可通过CAMeL Tools或Transformers pipeline使用。模型能准确分析阿拉伯语句子的情感倾向,对正面和负面情感均有良好识别效果。研究还探讨了语言变体、数据规模和微调任务类型对阿拉伯语预训练语言模型的影响,为该领域提供了有价值的见解。
bert-base-arabic-camelbert-da-sentiment - CAMeLBERT-DA阿拉伯语情感分析模型
预训练语言模型模型阿拉伯语CAMeLBERT-DA情感分析GithubHuggingface开源项目自然语言处理
CAMeLBERT-DA情感分析模型是基于阿拉伯方言预训练模型微调而成。该模型利用ASTD、ArSAS和SemEval数据集进行了fine-tuning,可通过CAMeL Tools或transformers pipeline轻松集成使用。模型支持对阿拉伯语文本进行积极和消极的二分类情感分析。这一成果对研究阿拉伯语言模型的变体、规模和任务类型之间的相互作用具有重要意义。
opt-2.7b - Meta AI开发的开放预训练Transformer语言模型
预训练语言模型模型OPT人工智能Github文本生成Huggingface开源项目自然语言处理
OPT是Meta AI开发的开放预训练Transformer语言模型系列,参数规模125M至175B。采用先进数据收集和训练方法,性能与GPT-3相当。旨在促进大规模语言模型的可重复研究,扩大研究群体。主要基于英语语料预训练,使用因果语言建模,适用于文本生成和下游任务微调。OPT开放了完整模型访问权限,有助于研究大语言模型的工作原理、影响及相关挑战。
bertweet-base - BERTweet为英文推文提供预训练大规模语言模型
Huggingface模型Github开源项目自然语言处理推特BERTweet预训练语言模型RoBERTa
BERTweet是针对英文推文预训练的开源大规模语言模型。该模型基于RoBERTa架构,使用8.5亿条英文推文进行训练,包括与COVID-19相关的推文。BERTweet在词性标注、命名实体识别、情感分析和讽刺检测等任务中表现出色。作为处理Twitter数据的基础工具,BERTweet可应用于多种自然语言处理任务,为研究人员提供了宝贵的资源。
herbert-base-cased - 波兰语自然语言处理的新突破:HerBERT预训练模型
预训练语言模型模型HerBERTGithub深度学习波兰语模型Huggingface开源项目自然语言处理
HerBERT是一款专为波兰语设计的预训练语言模型,基于BERT架构并结合掩码语言建模和句子结构目标进行优化。该模型在六大波兰语语料库上训练,涵盖超过86亿个标记,采用50k词汇量的字符级字节对编码分词器。HerBERT为波兰语自然语言处理研究和应用提供了坚实基础,可广泛应用于文本分类、命名实体识别等多种任务。
mt5-xxl - 基于mC4语料库的大规模多语言文本转换模型
Github开源项目自然语言处理模型Huggingface多语言模型mT5机器学习预训练语言模型
这款由Google研发的大规模多语言预训练文本转换模型基于mC4语料库训练,覆盖101种语言。模型采用统一的文本到文本格式,在多语言自然语言处理任务中展现出优异性能。经过下游任务微调后可投入实际应用,其完整代码和模型检查点已开源,为多语言NLP研究和应用奠定基础。
ARBERTv2 - 基于大规模MSA语料的阿拉伯语双向Transformer模型
阿拉伯语自然语言处理开源项目模型Github机器学习Huggingface预训练语言模型BERT
ARBERTv2是一款针对阿拉伯语的高性能预训练语言模型。它基于243GB文本和278亿个标记的现代标准阿拉伯语(MSA)语料库训练,是ARBERT的升级版。在ARLUE基准测试中,ARBERTv2在48个分类任务中的37个上实现了最佳性能,总体评分达77.40,优于包括XLM-R Large在内的其他模型,展现了卓越的阿拉伯语理解能力。
bert-base-swedish-cased - 瑞典国家图书馆发布的BERT预训练语言模型用于提升瑞典语文本处理
GithubHuggingface Transformers模型Swedish BERT开源项目瑞典文献命名实体识别Huggingface预训练语言模型
瑞典国家图书馆推出的预训练BERT和ALBERT语言模型,适用于瑞典语文本处理。bert-base-swedish-cased采用标准参数优化,适合各种文本源;bert-base-swedish-cased-ner专注于命名实体识别;albert-base-swedish-cased-alpha为尝试版ALBERT模型。全部模型支持大小写区分与整体词遮盖功能,并提供PyTorch版本供下载。
bangla-bert-base - 预训练孟加拉语模型,增强自然语言处理效果
评估结果孟加拉语预训练语言模型模型Github开源项目Bangla-Bert自然语言处理Huggingface
Bangla BERT Base是一款为孟加拉语开发的预训练语言模型,现已在Hugging Face平台上可用。该模型通过BERT的Masked Language Modeling进行训练,使用来自Bengali Commoncrawl和Wikipedia的语料库,并借助BNLP包进行词汇表构建。採用了bert-base-uncased架构,共有12层、768个隐藏单元、12个注意力头和110M参数。经过100万步训练,它在情感分析、仇恨言论检测和新闻分类等下游任务中表现突出,与多语言BERT和Bengali Electra相比,提高了精度。尤其是在Bengali NER任务中,评估结果相对优秀。该模型已经被应用于多项研究,是处理孟加拉语NLP任务的可靠工具。