#预训练

RobBERT - 为荷兰语自然语言处理提供强大基础的预训练模型
RobBERT荷兰语模型自然语言处理预训练BERTGithub开源项目
RobBERT是基于RoBERTa架构的荷兰语预训练语言模型,在多项荷兰语自然语言处理任务中展现出卓越性能。该模型在39GB荷兰语语料库上进行预训练,可用于情感分析、命名实体识别和词性标注等任务,尤其在小规模数据集上表现突出。RobBERT为荷兰语自然语言处理的研究与应用奠定了坚实基础。
data_management_LLM - 大型语言模型训练数据管理资源汇总
大语言模型训练数据管理预训练监督微调数据质量Github开源项目
该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段,探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术,以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。
academic-budget-bert - 学术预算下的BERT模型高效训练方案
BERT预训练微调深度学习自然语言处理Github开源项目
该项目提供一套脚本,用于在有限计算资源和时间预算下预训练和微调BERT类模型。基于DeepSpeed和Transformers库,项目实现了时间感知学习率调度和混合精度训练等优化技术。此外,还包含数据预处理、检查点保存和验证调度等功能,并提供训练命令生成工具。这些方法使研究人员能在学术预算限制内高效训练大型语言模型。
Sophia - 随机二阶优化器提升语言模型预训练效率
Sophia优化器机器学习语言模型预训练Github开源项目
Sophia是一种为大规模语言模型预训练设计的随机二阶优化器。它通过支持更大学习率,提高了训练速度和模型性能。该项目提供Sophia-G优化器的实现,包含超参数调优指南和GPT-2训练脚本,方便研究人员应用这一优化技术。Sophia适用于GPT-2等不同规模的模型,展现了良好的扩展性。
PMC-LLaMA - 开源医疗大语言模型推动医学智能研究
PMC-LLaMA医疗语言模型预训练指令微调医学问答Github开源项目
PMC-LLaMA是一个基于医学文献预训练和指令微调的开源大语言模型。该模型在USMLE、MedMCQA等医学测试中表现优异,能够有效处理医学问答和相关查询。PMC-LLaMA为研究人员提供了便利的使用和开发平台,促进医学人工智能研究的进展。
1.5-Pints - 快速训练小型语言模型的开源项目
小型语言模型预训练开源开发模型架构1.5-PintsGithub开源项目
1.5-Pints项目提供了一种快速预训练小型语言模型的方法,目标是在9天内达到与知名AI助手相当的水平。该项目开源了模型架构、训练脚本和工具,包含详细的安装指南、数据准备流程、训练和微调方法,以及模型评估和使用说明。研究人员和开发者可以通过这些资源复制实验并进行进一步的开源开发。
rho - 选择性语言建模优化数学推理能力的语言模型
Rho-1语言模型选择性语言建模数学能力预训练Github开源项目
Rho-1项目采用选择性语言建模(SLM)技术,通过聚焦有价值token进行预训练。该模型在GSM8k和MATH等数学推理任务上表现突出,以较少训练量达到基线水平。项目发布了base和code interpreter等多个版本,展现了优秀的数学推理能力。
moment - 时间序列分析基础模型 多任务多领域应用
MOMENT时间序列基础模型预训练多任务Github开源项目
MOMENT是一个开源的时间序列分析基础模型家族,为多任务、多数据集和多领域应用而设计。该模型在大规模时间序列数据上预训练,可处理预测、分类、异常检测和插补等任务。MOMENT能捕捉时间序列的内在特征,学习有意义的数据表示,在少量标记数据的情况下也表现出色。项目提供预训练模型、教程和研究代码,为时间序列分析提供了实用工具。
LLM-Continual-Learning-Papers - LLM持续学习研究论文集锦
LLM持续学习大语言模型预训练自然语言处理Github开源项目
本项目收录了大语言模型(LLM)持续学习领域的重要论文。涵盖知识持续学习、预训练适应、少样本学习等多个研究方向。这些论文探讨LLM如何学习新知识、适应新领域,同时保持原有能力。项目包括ICLR、NAACL、EMNLP等顶级会议发表的论文,时间跨度从2022年到2023年。收录内容涉及连续预训练、参数高效微调等主题,反映了LLM持续学习领域的最新研究趋势,为研究人员和开发者提供了解该领域最新进展的参考资源。
GLIP - 视觉语言预训练模型实现高效零样本和小样本物体检测
GLIP计算机视觉目标检测预训练零样本学习Github开源项目
GLIP是一种视觉语言预训练模型,在零样本和小样本物体检测任务中表现优异。该模型在COCO和LVIS等标准基准测试中超越了多个有监督基线。GLIP还具有出色的迁移能力,在13个下游物体检测任务中,少样本GLIP可与全监督Dynamic Head模型媲美。项目提供预训练、零样本评估和微调等功能的代码实现,以及多个预训练模型。
EVE - 无编码器视觉语言模型实现高效性能
EVE视觉语言模型无编码器预训练微调Github开源项目
EVE项目开发了一种无编码器的视觉语言模型架构,通过高效训练策略和精选数据集实现了与现有编码器基础模型相当的性能。该模型支持任意纵横比图像输入,在多项基准测试中表现优异。EVE-7B和EVE-7B-HD两个版本在视觉语言任务中展现了强大能力,为跨模态纯解码器架构提供了高效实用的开发方法。
ml-aim - 自回归图像模型预训练的突破性进展
AIM自回归图像模型预训练大规模模型图像特征Github开源项目
AIM项目开发了一系列采用自回归生成目标预训练的视觉模型。研究发现,图像特征的自回归预训练呈现出与大型语言模型类似的扩展性。该项目能够将模型参数轻松扩展到数十亿级,并能有效处理大规模未筛选的图像数据。AIM提供多种预训练模型,兼容PyTorch、MLX和JAX等多个框架,为计算机视觉领域的研究与应用提供了有力支持。
LLM4TS - 大型语言模型和基础模型在时间序列分析中的最新进展
LLM时间序列基础模型预训练AIGithub开源项目
LLM4TS项目整理了时间序列分析领域中大型语言模型和基础模型的最新研究。主要内容包括时间序列LLM的进展、专用基础模型、数据集和重要发现。此外,项目还涵盖了预训练时间序列模型和LLM在推荐系统等相关领域的应用,为研究和实践提供了丰富的资源。
Large-Time-Series-Model - 大规模生成式预训练时间序列模型
Timer时间序列模型预训练Transformer大规模数据集Github开源项目
Timer是一款基于生成式预训练Transformer的大规模时间序列模型。该模型在包含10亿时间点的UTSD数据集上预训练,可用于预测、插值和异常检测等多项任务。Timer采用解码器架构,支持灵活序列长度,在少样本场景下表现优异。项目开源了模型代码、数据集和预训练权重,为时间序列大模型研究奠定基础。
Awesome-Machine-Generated-Text - 机器生成文本研究资源汇总与综述
大规模语言模型预训练自然语言处理人工智能GPTGithub开源项目
这是一个全面的机器生成文本研究资源库,汇集了大规模预训练语言模型、分析方法和检测技术等关键内容。项目收录了OpenAI、DeepMind和Google等顶级机构的重要成果,包括GPT系列、Chinchilla和T5等著名模型。此外还整理了相关论文、演示、数据集和共享任务,为该领域的研究与开发提供了丰富参考。
mgpt - 支持61种语言的多语言生成式预训练模型
mGPT多语言模型预训练自然语言处理深度学习Github开源项目
mGPT是一个基于GPT-3的多语言模型,覆盖25个语系的61种语言。该模型使用维基百科和C4语料库进行预训练,包含低资源语言。mGPT在语言建模、跨语言自然语言理解和世界知识探测等方面表现出色,上下文学习能力与同期模型相当。项目代码和模型以MIT许可证开源。
Awesome-Pretraining-for-Graph-Neural-Networks - 图神经网络预训练技术论文资源库
图神经网络预训练自监督学习对比学习生成式预训练Github开源项目
该资源库全面收集了图神经网络预训练相关论文,按发表年份、图类型、预训练策略、调优策略和应用领域分类。内容涵盖静态图、动态图、异构图等图类型,以及生成式、对比学习、多任务学习等预训练策略。同时包含prompt tuning等调优方法,并涉及推荐系统、生物学等应用领域。资源库不断更新,为图神经网络预训练研究提供重要参考。
UrbanGPT - 时空大语言模型助力城市智能分析与建模
UrbanGPT时空大语言模型城市任务指令微调预训练Github开源项目
UrbanGPT是一款创新的时空大语言模型,融合时空依赖性编码器和指令微调范式。该模型能够理解复杂的时空相互依赖关系,在数据稀缺情况下实现全面准确的预测。UrbanGPT在多种城市任务中展现出优秀的泛化能力,尤其在零样本场景下表现出色,为城市规划和管理提供了有力的智能分析支持。
llms_tool - 多功能大语言模型训练测试工具包
HuggingFace大语言模型预训练RLHF分布式训练Github开源项目
llms_tool是一个基于HuggingFace的大语言模型工具包,支持多种模型的训练、测试和部署。它提供预训练、指令微调、奖励模型训练和RLHF等功能,支持全参数和低参数量训练。工具包集成WebUI和终端预测界面,以及DeepSpeed分布式训练。涵盖ChatGLM、LLaMA、Bloom等主流模型,提供多种训练方法和量化选项。
VisualRWKV - 结合RWKV的创新视觉语言模型
VisualRWKV视觉语言模型RWKV预训练微调Github开源项目
VisualRWKV是一个创新的视觉语言模型,基于RWKV架构设计,可处理多样化的视觉任务。该模型采用两阶段训练策略:首先进行预训练,利用预训练数据集训练视觉编码器到RWKV的投影层;随后进行微调,通过视觉指令数据优化模型性能。项目提供完整的训练指南,涵盖数据准备、模型获取和训练流程,支持多GPU并行和不同规模RWKV模型的训练。
Awesome-Code-LLM - 代码生成领域的前沿研究与顶级模型概览
代码生成大语言模型人工智能评估基准预训练Github开源项目
Awesome-Code-LLM汇集了代码生成领域的最新研究成果和资源。项目包含主要模型的性能排行榜、评估工具包介绍,以及按预训练、指令微调、反馈对齐和提示工程等主题整理的相关论文。这一资源库为研究人员和开发者提供了深入了解代码生成大语言模型的全面参考。
codet5p-220m - CodeT5+:多语言代码理解与生成的开放源代码模型
CodeT5+代码理解性能评估预训练代码生成Github模型开源项目Huggingface
CodeT5+是一种开源的多语言模型,支持多种编码器-解码器模式操作,适用于多种代码理解和生成任务。相比原始CodeT5系列,CodeT5+通过多样化的预训练任务和高效的计算方法显著提升性能,支持九种编程语言,并在多个任务中优于现有基线,特别是在HumanEval基准的零样本任务中表现突出。
vit_base_patch32_clip_384.openai_ft_in12k_in1k - 采用ViT技术的视觉Transformer模型
timm图像分类Huggingface开源项目模型预训练GithubVision TransformerFine-tuning
这款视觉Transformer图像分类模型由OpenAI基于WIT-400M数据集使用CLIP技术预训练,并经过ImageNet-12k和ImageNet-1k数据集微调。作为一种强大的图像分类和嵌入模型,其参数量达88.3M,计算量为12.7 GMACs,设计用于384x384图像。支持通过`timm`库接口调用,满足多种视觉任务需求,在图像识别和分析领域表现出稳定性能。
llm-jp-13b-v2.0 - 改进日本大型语言模型的开发与应用
Huggingfacellm-jp开源项目模型预训练Github自然语言处理大语言模型指令微调
由日本团队发起,项目提供基于Transformer架构的大型语言模型,支持多种编程语言和文本生成,专注于自然语言处理。模型经过大规模数据集的预训练和细化调试,展现出卓越的文本生成能力。
dictalm2.0 - 探索专注于希伯来语词汇与指令优化的生成式语言模型
开源项目模型GithubHuggingface文本生成希伯来语大语言模型预训练DictaLM 2.0
DictaLM-2.0是一种具有70亿参数的预训练生成文本模型,专门用于处理希伯来语文本,增强了词汇和指令功能。模型基于Mistral-7B-v0.1结构,扩充了1000个专属希伯来语词以提升压缩率,并在超过1900亿的自然文本数据上进行持续预训练,包含50%希伯来语和50%英语文本。提供高精度基模型和量化版本,适用于多种应用需求。用户可通过Python代码示例轻松加载和使用。此模型不内含内容审查机制,适合语言模型的专业研究。
camembert-base-legacy - 基于RoBERTa的法语语言模型在多任务中的应用
预训练Hugging FaceCamemBERTHuggingfaceGithub开源项目模型法语语言模型
CamemBERT是一种先进的法语语言模型,基于RoBERTa,提供多种可选变体,可满足不同的自然语言处理需求。通过Hugging Face库,用户能够轻松集成和应用其强大的掩码填充和上下文特征提取功能。
KcELECTRA-base - 基于用户生成内容的韩语预训练模型KcELECTRA
KcELECTRA预训练用户生成文本Github韩国语开源项目模型nlp模型Huggingface
KcELECTRA是一种专注于处理噪声文本的韩语预训练模型,基于Naver新闻评论和回复数据集进行训练。对比KcBERT,KcELECTRA在数据集扩展和词汇表方面得到改进,实现了在下游任务中的性能提升。该模型可通过Huggingface的Transformers库轻松访问和使用,无需额外下载文件。
Lexora-Lite-3B - 意大利语指令生成与自动化对话模型
语言模型神经网络transformers预训练模型Github开源项目自然语言处理Huggingface
Lexora-Lite-3B通过深度学习与自然语言处理技术提供意大利语的文本生成与对话自动化,依托transformers库及Sonnet-3.5-ITA-INSTRUCTION与Sonnet-3.5-ITA-DPO数据集,以高效处理语料指令与自动生成对话为核心,适用于多场景文本交互需求,简化任务管理。
bertweet-large - 大规模英语推文预训练模型,面向社交媒体文本
Huggingface开源项目模型预训练Github语言模型English TweetsBERTweetCOVID-19
BERTweet是首个面向英语推文的大规模预训练模型,基于RoBERTa程序开发,语料库包含2012至2019年间的8.45亿条推文及500万条涉及COVID-19的推文。在任务性能上,BERTweet在词性标注、命名实体识别、情感分析以及讽刺检测等方面表现出色,是分析推文内容的有效工具。
pix2struct-base - Pix2Struct预训练模型,实现多语言视觉-文本任务
文本解码器开源项目模型GithubHuggingfacePix2Struct视觉语言理解图像编码器预训练
Pix2Struct是一种预训练的图像-文本模型,专用于多种任务,如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练,在文档、插图、用户界面和自然图像领域实现出色性能,灵活整合语言和视觉输入。
layoutlmv3-large - 统一文本和图像掩码的文档AI预训练模型
模型开源项目多模态模型文档AI预训练HuggingfaceTransformerGithubLayoutLMv3
LayoutLMv3是一种用于文档AI的多模态Transformer模型,由Microsoft Document AI项目开发。该模型采用统一的文本和图像掩码预训练方法,架构简单且通用。LayoutLMv3可应用于表单理解、收据识别、文档视觉问答等文本相关任务,以及文档图像分类和布局分析等图像相关任务。这种灵活性使其成为文档AI领域的通用预训练模型,为多种文档处理任务提供了有力支持。
wangchanberta-base-att-spm-uncased - 基于RoBERTa架构的泰语预训练模型
模型预训练Github泰语模型开源项目WangchanBERTa机器学习Huggingface自然语言处理
WangchanBERTa是一个基于RoBERTa架构的泰语预训练模型,在78.5GB的泰语文本上进行了训练。模型采用SentencePiece分词器,词汇量为25,000个子词。它可用于掩码语言建模、文本分类和标记分类等任务,为泰语自然语言处理提供了基础,适用于情感分析、评分预测、主题分类和命名实体识别等多种应用场景。
opt-6.7b - Meta AI推出开源预训练语言模型促进AI研究
语言模型模型OPT预训练人工智能Github文本生成Huggingface开源项目
OPT-6.7B是Meta AI推出的开源预训练语言模型,采用因果语言建模方法训练。该模型具有67亿参数,在800GB多样化数据集上训练,性能接近GPT-3。OPT-6.7B可用于文本生成和下游任务微调,旨在促进大型语言模型的可重复研究,让更多研究者参与探讨语言模型的影响。
pix2struct-large - 融合图像和文本的开创性AI预训练模型
模型多任务学习开源项目Huggingface图像到文本模型Pix2StructGithub预训练视觉语言理解
Pix2Struct是一款突破性的图像到文本预训练模型,专注于视觉语言理解。其独特之处在于通过解析网页截图为简化HTML进行预训练,有效整合了OCR、语言建模和图像描述等关键技术。在文档、插图、用户界面和自然图像四大领域的九项任务评估中,Pix2Struct在六项中表现卓越,展现了其强大的通用性。这一创新模型为视觉语言相关任务奠定了坚实基础,可通过微调适应多样化的应用场景。
bert_uncased_L-12_H-768_A-12 - BERT迷你模型优化低资源环境下的应用
紧凑模型BERTGithub开源项目计算资源Huggingface预训练知识蒸馏模型
BERT Miniatures提供24款小型BERT模型,适合计算资源有限的环境。利用知识蒸馏,这些模型可通过微调获得精确的结果,旨在支持低资源环境的研究并鼓励探索新的创新方向。用户可在官方BERT GitHub页面及HuggingFace平台下载这些模型。它们在GLUE基准测试中表现良好,可通过调整超参数实现最佳效果。详情请参考相关文献。
layoutlmv2-large-uncased - 提升多模态文档处理能力的先进预训练模型
开源项目模型GithubLayoutLMv2Huggingface文档AI多模态图像理解预训练
LayoutLMv2通过整合文本、布局和图像的新预训练任务,增强文档理解能力,广泛应用于FUNSD、CORD等视觉丰富文档项目,提高性能,适合多种下游任务。