#预训练

layoutlmv3-large - 统一文本和图像掩码的文档AI预训练模型
模型开源项目多模态模型文档AI预训练HuggingfaceTransformerGithubLayoutLMv3
LayoutLMv3是一种用于文档AI的多模态Transformer模型,由Microsoft Document AI项目开发。该模型采用统一的文本和图像掩码预训练方法,架构简单且通用。LayoutLMv3可应用于表单理解、收据识别、文档视觉问答等文本相关任务,以及文档图像分类和布局分析等图像相关任务。这种灵活性使其成为文档AI领域的通用预训练模型,为多种文档处理任务提供了有力支持。
bert-base-chinese - BERT预训练模型在中文自然语言处理中的应用
Huggingface模型BERT预训练掩码语言模型Github开源项目自然语言处理中文模型
bert-base-chinese是一个专为中文自然语言处理设计的预训练BERT模型。该模型采用独立字词片段随机掩码训练方法,适用于掩码语言建模等任务。由HuggingFace团队开发,拥有12层隐藏层和21128词汇量。虽然可能存在潜在偏见,但为中文NLP应用提供了有力支持。研究人员可通过简洁的Python代码快速应用此模型。
OpenELM-1_1B-Instruct - 高效开源语言模型家族及其完整训练框架
语言模型Huggingface模型指令微调开源框架预训练GithubOpenELM开源项目
OpenELM是一个开源高效语言模型家族,通过层级缩放策略优化参数分配以提高模型精度。该项目提供了从2.7亿到30亿参数的预训练和指令微调模型,以及完整的数据准备、训练、微调和评估框架。OpenELM在多项自然语言处理任务中表现出色,为语言模型研究和应用开发提供了有价值的开源资源。
LanguageBind_Video_FT - 基于语言的多模态预训练方法扩展到N种模态
多模态Huggingface模型预训练视频语言Github开源项目LanguageBindICLR
LanguageBind是一种基于语言的多模态预训练方法,将视频-语言预训练扩展到视频、红外、深度、音频等多种模态。该方法以语言作为不同模态间的桥梁,无需中间模态即可实现高性能。项目提出了包含1000万条数据的VIDAL-10M数据集,涵盖5种模态。通过多视角增强的描述训练,LanguageBind在多个下游任务中展现出优异性能。
openai-gpt - 开创性语言模型推动自然语言处理发展
语言模型Huggingface模型预训练GPTGithub开源项目自然语言处理OpenAI
OpenAI GPT是基于Transformer架构的开创性语言模型,采用无监督预训练方法。它在文本推理、语义相似度和阅读理解等多项自然语言处理任务中表现优异,为后续GPT系列奠定了基础。该模型使用12层Transformer结构,在BooksCorpus数据集上进行预训练。尽管存在一些限制,OpenAI GPT仍是自然语言处理领域的重要里程碑。
mt5-large - 多语言文本转换模型支持101种语言处理
模型mT5预训练Github多语言模型开源项目Huggingface机器学习自然语言处理
mt5-large是基于Google's mT5架构开发的大规模多语言预训练模型。该模型在覆盖101种语言的mC4语料库上训练,可处理中文、英语、法语等多语言任务。mt5-large采用统一的文本到文本格式,在多语言NLP基准测试中表现出色。值得注意的是,该模型需要针对特定下游任务进行微调后才能使用。mt5-large为多语言自然语言处理研究和应用提供了坚实基础,有助于推动跨语言AI技术的发展。
wangchanberta-base-att-spm-uncased - 基于RoBERTa架构的泰语预训练模型
模型预训练Github泰语模型开源项目WangchanBERTa机器学习Huggingface自然语言处理
WangchanBERTa是一个基于RoBERTa架构的泰语预训练模型,在78.5GB的泰语文本上进行了训练。模型采用SentencePiece分词器,词汇量为25,000个子词。它可用于掩码语言建模、文本分类和标记分类等任务,为泰语自然语言处理提供了基础,适用于情感分析、评分预测、主题分类和命名实体识别等多种应用场景。
opt-6.7b - Meta AI推出开源预训练语言模型促进AI研究
语言模型模型OPT预训练人工智能Github文本生成Huggingface开源项目
OPT-6.7B是Meta AI推出的开源预训练语言模型,采用因果语言建模方法训练。该模型具有67亿参数,在800GB多样化数据集上训练,性能接近GPT-3。OPT-6.7B可用于文本生成和下游任务微调,旨在促进大型语言模型的可重复研究,让更多研究者参与探讨语言模型的影响。
pix2struct-large - 融合图像和文本的开创性AI预训练模型
模型多任务学习开源项目Huggingface图像到文本模型Pix2StructGithub预训练视觉语言理解
Pix2Struct是一款突破性的图像到文本预训练模型,专注于视觉语言理解。其独特之处在于通过解析网页截图为简化HTML进行预训练,有效整合了OCR、语言建模和图像描述等关键技术。在文档、插图、用户界面和自然图像四大领域的九项任务评估中,Pix2Struct在六项中表现卓越,展现了其强大的通用性。这一创新模型为视觉语言相关任务奠定了坚实基础,可通过微调适应多样化的应用场景。
bert_uncased_L-12_H-768_A-12 - BERT迷你模型优化低资源环境下的应用
紧凑模型BERTGithub开源项目计算资源Huggingface预训练知识蒸馏模型
BERT Miniatures提供24款小型BERT模型,适合计算资源有限的环境。利用知识蒸馏,这些模型可通过微调获得精确的结果,旨在支持低资源环境的研究并鼓励探索新的创新方向。用户可在官方BERT GitHub页面及HuggingFace平台下载这些模型。它们在GLUE基准测试中表现良好,可通过调整超参数实现最佳效果。详情请参考相关文献。
layoutlmv2-large-uncased - 提升多模态文档处理能力的先进预训练模型
开源项目模型GithubLayoutLMv2Huggingface文档AI多模态图像理解预训练
LayoutLMv2通过整合文本、布局和图像的新预训练任务,增强文档理解能力,广泛应用于FUNSD、CORD等视觉丰富文档项目,提高性能,适合多种下游任务。
TinyLlama_v1.1 - 精简版Llama模型 专注多领域应用
语言模型神经网络Huggingface模型预训练TinyLlamaGithub开源项目自然语言处理
TinyLlama_v1.1是一个基于Llama 2架构的紧凑型语言模型,仅有1.1B参数。通过2万亿token的预训练,该项目开发了三个特定领域的变体:通用型、数学与代码增强型和中文优化型。这些模型旨在为计算资源受限的应用场景提供高效的语言处理解决方案。
TinyLlama-1.1B-Chat-v0.6 - 基于Llama 2架构的轻量级开源聊天模型
模型TinyLlama开源项目语言模型Huggingface聊天机器人Github人工智能预训练
TinyLlama-1.1B-Chat-v0.6是基于Llama 2架构的轻量级开源聊天模型。该模型在3万亿个token上预训练,仅有11亿参数,可与多种Llama项目兼容。它利用UltraChat数据集微调,并通过DPOTrainer在UltraFeedback数据集上对齐,平衡了性能和灵活性。TinyLlama适用于计算和内存资源受限的应用场景,为开发者提供了高效的集成选择。
flan-ul2 - 多语言encoder-decoder模型 适用于翻译问答和逻辑推理
模型预训练Github大语言模型微调Flan-UL2开源项目Huggingface自然语言处理
Flan-UL2是基于T5架构的多语言encoder-decoder模型,经Flan提示微调后性能显著提升。该模型拥有200亿参数,支持英语、法语等多种语言,可用于翻译、问答、逻辑推理和科学知识等任务。相比T5和GPT,Flan-UL2在50多项NLP任务中表现更为出色,达到了领先水平。
TinyLlama-1.1B-intermediate-step-1431k-3T - 快速训练的轻量级1.1B参数Llama模型
语言模型模型性能评估TinyLlama预训练GithubHuggingface开源项目
TinyLlama-1.1B是一个在3万亿个token上预训练的小型Llama模型。采用Llama 2架构,该模型用16个A100 GPU在90天内完成训练,展现高效性。紧凑设计适合资源受限场景,在多项基准测试中表现不俗,可轻松集成到基于Llama的开源项目中。
mt5-base - 多语言预训练文本转换模型 覆盖101种语言的强大NLP工具
Huggingface模型机器学习预训练mT5Github开源项目自然语言处理多语言模型
mt5-base是Google开发的基于T5架构的多语言预训练模型,涵盖101种语言。该模型在mC4语料库上进行预训练,适用于多种跨语言NLP任务。使用时需针对特定任务进行微调。mt5-base在多语言基准测试中表现出色,为自然语言处理领域提供了有力支持。
LLaMA-1B-dj-refine-150B - LLaMA架构的开源语言模型基于精炼数据集训练
模型LLM预训练Github模型评估开源项目Data-Juicer数据集Huggingface
LLaMA-1B-dj-refine-150B是一个采用LLaMA-1.3B架构的开源语言模型,基于Data-Juicer精炼的150B tokens RedPajama和Pile数据预训练。模型在16个HELM任务上的平均得分达34.21,优于同级别的Falcon-1.3B、Pythia-1.4B和Open-LLaMA-1.3B。项目提供了详细的训练数据集信息和性能对比,可作为语言模型研究的参考资源。
Sheared-LLaMA-1.3B - 高效压缩训练的小型语言模型
模型开源项目语言模型HuggingfaceSheared-LLaMA结构化剪枝Github预训练下游任务
Sheared-LLaMA-1.3B是一个基于LLaMA2-7B模型裁剪并预训练的小型语言模型。该项目仅使用50B token进行训练,却在推理、阅读理解等多项下游任务中展现出优异表现,平均性能超过了同等规模的OPT-1.3B和Pythia-1.4B模型。这一模型保留了LLaMA的词表,在有限计算资源条件下实现高效训练,为大型语言模型的压缩和轻量化研究提供了新的思路。
biomed_roberta_base - RoBERTa衍生模型在生物医学NLP任务中展现优异性能
语言模型Huggingface模型预训练Github开源项目自然语言处理生物医学RoBERTa
BioMed-RoBERTa-base是一个针对生物医学领域优化的语言模型,基于RoBERTa-base架构,通过对268万篇科学论文全文的持续预训练而成。该模型在文本分类、关系提取和命名实体识别等多项生物医学NLP任务中表现出色,比基础RoBERTa模型有显著提升。这为生物医学领域的自然语言处理研究提供了一个强大的预训练工具。
Mistral-7B-v0.1-sharded - 模型带来更高效的文本生成性能
Hugging Face大语言模型预训练开源项目Mistral 7B模型HuggingfaceGithubtransformer模型
Mistral-7B-v0.1是一个预训练的生成文本模型,拥有70亿参数,采用先进的变压器架构,并在多项基准测试中表现优于Llama 2 13B。该模型分片为2GB,以减少RAM需求,适合在资源有限的环境中应用,但不包含内容监管功能。若遇到'mistral'错误,通过安装transformers源代码可解决。
deit-small-patch16-224 - 数据高效的图像Transformer模型,用于精炼图像分类
图像分类DeiTImageNet-1kHuggingfaceGithub开源项目模型预训练Vision Transformer
Data-efficient Image Transformer(DeiT)小型模型在ImageNet-1k上经过预训练和微调。该模型通过高效的预训练方法和识别精确的标签蒸馏技术实现了性能与效率的平衡。DeiT-small在ImageNet中实现79.9%的top-1准确率,支持PyTorch平台,适合图像分类任务,并可以通过ViTModel或ViTForImageClassification进行应用。
bert_uncased_L-8_H-256_A-4 - 24种BERT小模型为计算资源有限的研究环境提供支持
计算资源预训练知识蒸馏开源项目BERT模型Huggingface模型压缩Github
此项目提供24种BERT模型,适用于计算资源有限的环境,可通过知识蒸馏进行有效的模型微调,支持低资源机构的研究工作。
Qwen2-7B-Instruct-GGUF - 广泛基准测试中表现突出的大型语言模型
推理能力GithubQwen2-7B-Instruct开源项目多语言模型优化Huggingface预训练模型
Qwen2-7B-Instruct-GGUF是一款经过指导优化的开源大规模语言模型,在语言理解、生成和多语言支持等基准测试中表现优异,提供fp16及多种量化格式,兼容OpenAI API,并增强代码和数学推理功能。
Minerva-350M-base-v1.0 - 意大利和英语数据驱动的开源LLM模型
Huggingface大型语言模型Minerva开源项目预训练模型Github意大利语偏见
Minerva-350M-base-v1.0是一个基于350百万参数的开源语言模型,使用意大利语和英语数据进行训练。这一模型由Sapienza NLP、FAIR及CINECA共同开发,提升双语文本生成。使用时需注意可能存在的偏见与不当内容。
bert_uncased_L-12_H-512_A-8 - 小型BERT模型适用于有限计算资源的高效预训练
紧凑模型开源项目模型GithubHuggingface预训练知识蒸馏计算资源BERT
该项目介绍了24种面向资源受限环境的小型BERT模型,支持低计算资源研究。模型遵循BERT标准架构,并在知识蒸馏中表现优异,可通过官方GitHub和HuggingFace平台获取,助力资源有限下的研究创新。
regnety_120.sw_in12k_ft_in1k - 高级图像分类模型,优化大规模数据集的性能
预训练图像分类RegNetY开源项目模型Huggingface特征提取数据集Github
RegNetY-12GF模型致力于图像分类,先在ImageNet-12k上预训练,再在ImageNet-1k上微调。其结构支持多项增强功能,如随机深度和梯度检查点,提高模型准确性和效率。基于timm库实现,广泛用于特征图提取和图像嵌入,适用于多种图像处理场景。
convnext_small.in12k_ft_in1k_384 - 高效的ConvNeXt图像分类与特征提取预训练模型介绍
开源项目模型timmImageNetGithubHuggingfaceConvNeXt预训练图像分类
ConvNeXt图像分类模型,通过timm库在ImageNet-12k及ImageNet-1k上进行预训练与微调,提供图像特征提取与分类功能。支持TPU和8xGPU训练方式,适合大规模数据集处理。模型拥有50.2M参数和25.6 GMACs,支持384x384图像输入,并兼具特征图提取与图像嵌入功能,适用于高效图像处理需求。更多性能数据及结果可在timm库查阅。
llm-jp-3-1.8b-instruct - 跨平台大规模语言模型的多语言开发与评估
大规模语言模型Github开源项目指令微调transformersHuggingface预训练llm-jp模型
项目由日本国家信息学研究所研发中心开发,提供支持多种编程语言的大型语言模型,如C、Python、Java。采用Transformer架构,模型经过大规模数据集的预训练与优化微调,适用于多语言环境。用户可通过Hugging Face Transformers库轻松集成与使用。项目提供模型技术细节、参数设置和语言标记器使用方法,以及多样化的数据集和评估方案,适用于中文、英文、日文等语言。
TinyLlama-1.1B-Chat-v0.3 - 轻量级高性能AI聊天助手 基于3万亿token训练
大语言模型Github开源项目TinyLlamaHuggingface对话模型预训练模型
TinyLlama-1.1B-Chat-v0.3是一个基于Llama 2架构的轻量级开源语言模型,使用1.1B参数在3万亿tokens上预训练。模型采用OpenAssistant数据集微调,支持chatml格式,具有部署灵活、资源占用少等特点。TinyLlama保持了与Llama生态系统的兼容性,同时适用于计算资源受限的场景,为AI聊天应用提供了一个高效实用的解决方案。
Llama-3-Open-Ko-8B-Instruct-preview - Llama-3基础上的韩语模型适用于对话和指导任务
预训练Github开源项目指令生成Llama-3-Open-Ko-8B-Instruct-preview模型语言模型Huggingface机器学习
Llama-3-Open-Ko-8B-Instruct-preview利用公开资源预训练,处理17.7B+文本标记,为韩语对话和指导提供新起点。TPUv5e-256支持下的训练采用Chat Vector方法,增强自然语言生成。尽管尚未微调韩语指令,该模型已展示可靠性和高效性
small - Funnel Transformer小模型助力有效的英文处理
Hugging Face预训练开源项目英语语言处理模型Transformer模型HuggingfaceFunnel TransformerGithub
Funnel Transformer是一款基于自监督学习的预训练英语模型,使用丰富的公共数据集进行训练,类似ELECTRA的目标,通过区分原始与替换标记来学习语言特征。模型不区分大小写字母,适合用于序列分类、标记分类和问答任务。访问模型中心可获取进行特定任务的微调版本。
wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理
语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别
Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型,拥有10亿参数。该模型在436K小时的公开语音数据上训练,涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分,BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务,需要16kHz采样率的语音输入进行微调。
electra-large-discriminator - ELECTRA模型 革新自监督语言表示学习
Github判别器预训练模型开源项目ELECTRAHuggingface文本编码自然语言处理
ELECTRA是一种创新的自监督语言表示学习方法,能够以较少的计算资源高效预训练transformer网络。该模型通过区分真实和生成的输入标记进行训练,原理类似GAN判别器。ELECTRA在小规模实验中展现出优异性能,仅需单GPU即可达到强大效果;在大规模应用中,它在SQuAD 2.0数据集上达到了领先水平。此项目开源了ELECTRA的预训练和微调代码,适用于分类、问答和序列标注等多种自然语言处理任务。
Llama-3-Swallow-8B-Instruct-v0.1 - 利用Meta Llama 3进行日语数据增强的持续预训练
Llama3Huggingface开源项目模型预训练Github语言模型Meta Llama日语能力
Llama-3-Swallow-8B-Instruct-v0.1是基于Meta Llama 3的语言模型,专注于日语的持续预训练和多项任务优化。通过监督微调和Chat Vector,模型在日语和英语任务中表现突出,包括选择题问答和代码生成。此模型由东京工业大学和合作机构开发,得到日本先进工业科学技术研究所的支持,旨在加强语言模型的生成、摘要及翻译能力。
AMD-Llama-135m - 轻量级语言模型实现高效推理加速
语言模型神经网络Huggingface预训练AMD-Llama-135mGithub模型开源项目机器学习
AMD-Llama-135m是一个基于LLama2架构的135M参数语言模型,在AMD Instinct MI250加速器上训练。该模型与huggingface transformers兼容,并使用LLama2相同的分词器。模型可独立使用,也可作为LLama2和CodeLlama的推理加速辅助模型。经SlimPajama和Project Gutenberg数据集预训练,以及StarCoder Python代码数据集微调后,模型在多项NLP基准测试中表现优异。通过推理加速技术,吞吐量可提升至3.88倍。
MistralRP-Noromaid-NSFW-Mistral-7B-GGUF - 基于Mistral-7B的角色扮演与NSFW模型合并项目
语言模型Mistralmergekit模型合并预训练模型Github开源项目Huggingface
这是一个使用mergekit工具开发的模型融合项目,通过SLERP方法将Mistral-RP和NSFW-Noromaid两个预训练模型合并。项目采用Alpaca提示模板,整合了角色扮演与NSFW内容特性,适用于相关场景的语言生成任务。