#预训练模型

contriever-msmarco - 基于对比学习的无监督密集信息检索模型
模型Contriever句子嵌入Github预训练模型平均池化特征提取开源项目Huggingface
contriever-msmarco是Facebook开发的无监督密集信息检索模型,基于对比学习方法。作为facebook/contriever的微调版本,它遵循了'Towards Unsupervised Dense Information Retrieval with Contrastive Learning'论文的方法。该模型能够生成高质量的句子嵌入,适用于多种信息检索任务。通过HuggingFace Transformers库,研究者可以方便地加载模型并使用均值池化操作获取句子嵌入。
codebert-javascript - 基于CodeBERT的JavaScript代码评估预训练模型
代码生成评估Huggingface模型机器学习模型Github预训练模型开源项目自然语言处理CodeBERTScore
该模型基于microsoft/codebert-base-mlm架构,针对JavaScript代码进行了优化训练。使用codeparrot/github-code-clean数据集,经过100万步掩码语言建模任务训练。主要应用于CodeBERTScore项目,用于代码生成评估,同时也适用于其他相关任务。此模型为JavaScript代码分析和评估提供了有力工具,可满足研究人员和开发者的需求。
wav2vec2-base-vi - 基于wav2vec2的越南语自监督学习模型提升语音识别性能
模型Wav2Vec2预训练模型开源项目Huggingface自监督学习语音识别越南语Github
该项目开发了基于wav2vec2架构的越南语自监督学习模型。模型使用13000小时的多样化越南语YouTube音频数据进行预训练,包括清晰音频、噪声音频和对话等。项目提供95M参数的基础版和317M参数的大型版预训练模型。在VLSP 2020 ASR数据集上,大型模型配合5-gram语言模型可将词错率降至5.32%。这些模型为越南语语音识别等下游任务提供了有力支持。
wav2vec2-large-xlsr-53 - 突破性多语言语音识别模型 适用低资源语言场景
模型预训练模型多语言模型开源项目Huggingface语音识别Github深度学习Wav2Vec2-XLSR-53
Wav2Vec2-XLSR-53是一款基于wav2vec 2.0架构的多语言语音识别模型。该模型通过在53种语言的原始音频上预训练,学习跨语言语音表示。在CommonVoice和BABEL等基准测试中,Wav2Vec2-XLSR-53显著优于单语言模型,特别适合低资源语言的语音识别任务。这一开源项目为研究人员提供了强大工具,有助于推动低资源语言语音理解的进展。
stsb-TinyBERT-L-4 - 轻量级BERT模型用于语义文本相似度任务
模型Quora预训练模型开源项目SentenceTransformers跨编码器Huggingface语义相似度Github
stsb-TinyBERT-L-4是一个基于TinyBERT架构的轻量级模型,用于语义文本相似度任务。该模型在STS基准数据集上训练,采用交叉编码器结构预测句子对的语义相似度得分。模型可通过SentenceTransformers库的CrossEncoder类或Transformers的AutoModel类使用,为自然语言处理应用提供语义相似度评估功能。
speecht5_tts - 基于统一模态预训练的高效语音合成模型
模型Github预训练模型开源项目Huggingface语音合成语音处理SpeechT5文本转语音
SpeechT5是一个基于统一模态预训练框架的语音合成模型。它通过大规模未标记语音和文本数据学习统一表示,提升了语音和文本的建模能力。该模型在语音识别、合成、翻译等多项任务中表现优异。研究者可使用Hugging Face Transformers库轻松实现文本到语音转换,或针对特定需求进行模型微调。SpeechT5为语音处理领域提供了强大而灵活的解决方案。
DialoGPT-large - 突破性的多轮对话AI模型
模型DialoGPT对话生成Github多轮对话预训练模型Huggingface开源项目自然语言处理
DialoGPT是微软开发的大规模预训练对话模型,专门用于生成多轮对话响应。该模型基于147M条Reddit讨论数据训练,在单轮对话图灵测试中,其生成的回复质量与人类相当。DialoGPT支持多轮对话生成,可轻松集成到各类聊天应用中。研究人员能够通过transformers库快速加载模型并进行交互。作为开源项目,DialoGPT为构建更智能、自然的对话系统奠定了基础。
test-ttm-v1 - 开源时间序列预测模型 高效预测基础
基础模型模型TinyTimeMixerGithub时间序列预测预训练模型Huggingface开源项目
Test TinyTimeMixer (TTM)是一个开源的时间序列预测基础模型。这个项目利用预训练方法,为时间序列分析提供了有力支持。TTM致力于提升时间序列预测的效率和准确性,可应用于多种时间相关的数据分析场景。作为开源项目,它遵循Apache 2.0许可证,并在Hugging Face平台上提供。TTM为研究人员和数据科学家提供了一个探索和优化时间序列预测技术的平台。
wide_resnet50_2.racm_in1k - Wide ResNet-50-2模型采用RandAugment训练实现高性能图像分类
模型神经网络预训练模型开源项目Huggingface图像分类特征提取wide_resnet50_2Github
wide_resnet50_2.racm_in1k是一个基于Wide-ResNet-B架构的图像分类模型。它采用ReLU激活函数、7x7卷积层和1x1卷积短路连接。该模型在ImageNet-1k数据集上通过RandAugment 'RACM'方法训练,达到82.27%的top-1准确率。模型包含6890万参数,可用于图像分类、特征提取和嵌入生成。基于timm库实现,提供简洁API便于推理和特征提取。
bert-base-arabic-camelbert-mix-ner - 基于CAMeLBERT Mix的阿拉伯语命名实体识别模型
模型Github预训练模型开源项目CAMeLBERT-MixHuggingface命名实体识别自然语言处理阿拉伯语
这是一个基于CAMeLBERT Mix模型微调的阿拉伯语命名实体识别模型。该模型使用ANERcorp数据集进行训练,能够识别阿拉伯语文本中的地点等命名实体。用户可通过CAMeL Tools或Transformers pipeline轻松调用。模型在多项自然语言处理任务中表现优异,尤其适合处理现代标准阿拉伯语文本。
t5-11b - 统一框架下的多语言文本转换模型
模型Github文本转换预训练模型开源项目Huggingface迁移学习T5自然语言处理
T5-11B是一个基于Text-To-Text Transfer Transformer架构的大型语言模型,拥有110亿参数。该模型采用统一的文本到文本格式,能够处理机器翻译、文档摘要、问答和分类等多种NLP任务。T5-11B在Colossal Clean Crawled Corpus (C4)上进行预训练,并在24个任务上评估性能。模型支持英语、法语、罗马尼亚语和德语,展现出优秀的迁移学习能力,为自然语言处理应用奠定了坚实基础。
vit_large_patch16_384.augreg_in21k_ft_in1k - 使用ImageNet数据集进行图像分类的Vision Transformer模型
Vision Transformer特征提取模型比较模型Github开源项目图像分类预训练模型Huggingface
该Vision Transformer模型专用于图像分类,最初在ImageNet-21k上进行扩展和正则化训练,并在ImageNet-1k上进行微调。由原作者使用JAX开发,后移植至PyTorch框架。模型的显著特点包括支持384x384图像尺寸,参数量达到304.7M,提升图像识别的准确性。该模型简化了图像分类和图像嵌入生成的过程。高效的数据增强和正则化策略进一步提升了模型性能,是计算机视觉研究与应用的有效工具。
pegasus-xsum - 高效文本摘要生成模型
ROUGE评分Huggingface模型摘要生成Github预训练模型开源项目自然语言处理PEGASUS
pegasus-xsum是一个专注于文本摘要的先进模型。该模型采用创新的预训练方法,并在多个基准数据集上展现出优异性能。通过混合训练数据和随机采样等技术,研究人员进一步提升了模型在ROUGE评分等指标上的表现。pegasus-xsum能够生成高质量的抽象摘要,适用于多种摘要任务场景。
sentiment_analysis_generic_dataset - BERT微调模型实现精准文本情感分析
Huggingface情感分析模型BERTGithub预训练模型开源项目自然语言处理文本分类
该项目基于BERT预训练模型,专门针对情感分析任务进行微调。模型使用bert-base-uncased作为基础,通过掩码语言建模和下一句预测技术进行预训练,具备理解双向语境的能力。这种预训练方法使模型能为情感分析等下游任务提供有效特征。值得注意的是,此微调版本仅适用于情感分析,不推荐用于其他任务的进一步调整。
codebert-base-mlm - 基于掩码语言模型的编程和自然语言预训练模型
模型Github编程语言CodeBERT预训练模型开源项目自然语言机器学习Huggingface
CodeBERT-base-mlm是Microsoft开发的编程和自然语言双模态预训练模型。它基于CodeSearchNet语料库训练,采用掩码语言模型目标,可用于代码补全、理解和生成任务。该模型支持多种编程语言,提供简洁的API接口,便于集成应用。CodeBERT-base-mlm在连接编程语言和自然语言方面展现出独特优势,为软件开发和自然语言处理领域提供了新的研究方向。
xlnet-base-cased - 创新的广义排列语言建模与自回归预训练技术
模型XLNetGithub预训练模型Transformer开源项目Huggingface机器学习自然语言处理
XLNet是一种创新的无监督语言表示学习方法,采用广义排列语言建模目标和Transformer-XL架构。这使得它在处理长上下文语言任务时表现卓越,并在多个下游任务中取得了领先成果。作为一个预训练模型,XLNet主要用于微调特定任务,尤其适合需要理解完整句子的应用场景,如序列分类、标记分类和问答系统等。
bert-large-portuguese-cased - BERT大规模预训练模型助力巴西葡萄牙语NLP任务
神经网络Huggingface模型BERT葡萄牙语Github预训练模型开源项目自然语言处理
bert-large-portuguese-cased是一个专为巴西葡萄牙语开发的BERT预训练模型。该模型在命名实体识别、句子相似度和文本蕴含等多项NLP任务中表现出色。模型提供Base和Large两种版本,参数量分别为1.1亿和3.35亿。它支持掩码语言建模和BERT嵌入生成,为巴西葡萄牙语NLP研究奠定了坚实基础。
DialoGPT-medium - 多轮对话生成的开源预训练模型
模型DialoGPT对话生成Github多轮对话预训练模型Huggingface开源项目自然语言处理
DialoGPT是基于1.47亿条Reddit讨论数据训练的开源对话模型,支持多轮对话生成。在单轮对话图灵测试中,其回复质量与人类相当。研究人员可通过Python接口轻松调用DialoGPT进行交互式对话,探索自然语言处理和对话系统的前沿技术。
albert-xxlarge-v2 - 基于大规模预训练的模型,提升英语语言任务表现
掩码语言模型Github开源项目ALBERT自监督学习Huggingface预训练模型句子顺序预测模型
该模型使用遮蔽语言建模和句子排序任务在大规模英语语料库上进行预训练,擅长捕捉句子双向语义。通过层共享设计,降低内存消耗,具备12个重复层、128个嵌入和4096个隐藏维度。适合句子分类、标记分类和问答等任务的微调,表现优异。
moirai-1.0-R-small - Moirai 开源预训练时间序列预测模型
TransformerMoirai时间序列预测Huggingface模型机器学习Github预训练模型开源项目
Moirai-1.0-R-small是一个开源的预训练时间序列预测模型。它基于掩码编码器架构,在LOTSA数据集上训练,可处理多变量时间序列。该模型使用补丁嵌入和混合分布输出等技术,提供高精度预测。通过uni2ts库,研究人员和开发者可以便捷地将Moirai应用于各类时间序列预测任务。
dziribert - 突破性阿尔及利亚方言自然语言处理工具
语言模型Huggingface模型GithubDziriBERT阿尔及利亚方言预训练模型开源项目自然语言处理
DziriBERT是首个专门为阿尔及利亚方言开发的Transformer语言模型。该模型能同时处理阿拉伯文和拉丁文字符的阿尔及利亚文本,在仅使用约100万条推文进行预训练的情况下,就在阿尔及利亚文本分类任务中创下新纪录。DziriBERT支持掩码语言建模,适用于多种自然语言处理任务。但值得注意的是,由于预训练数据源自社交媒体,模型可能会在某些情况下生成不当词语,使用时需根据具体应用进行筛选。
dino-vitb8 - 无需微调,实现高效图像分类的自监督视觉转换器
Github开源项目图像分类Vision Transformer自监督学习Huggingface预训练模型ImageNet-1k模型
Vision Transformer (ViT)模型通过DINO方法进行的自监督训练在ImageNet-1k数据集上预训练,注重提升图像特征提取,无需微调即可应用于图像分类,兼顾多种下游任务。可根据任务需求选择合适的微调版本。
mobilenetv4_conv_aa_large.e230_r448_in12k_ft_in1k - 高效图像分类与特征提取模型 支持移动设备应用
MobileNetV4ImageNetGithub开源项目图像分类timmHuggingface预训练模型模型
MobileNet-V4图像分类模型经过ImageNet-12k预训练和ImageNet-1k精细调整,优化了参数和图像处理能力。该模型适用于移动设备,并支持特征提取和图像嵌入。凭借出色的Top-1准确率和参数效率,它在同类模型中表现突出,提供快速准确的图像识别能力。
chronos-t5-base - T5架构驱动的时间序列预测基础模型
模型开源项目Github时间序列预测预训练模型ChronosHuggingface机器学习T5架构
Chronos-T5-Base是一款基于T5架构的时间序列预测基础模型,具有2亿参数规模。该模型将时间序列转换为token序列,通过交叉熵损失训练,能够生成多样化的概率性预测。Chronos-T5-Base在大量公开时间序列数据和合成数据上进行了预训练,适用于广泛的时间序列预测场景。研究人员和开发者可以通过Python接口轻松调用该模型,实现高效的时间序列分析和预测。
t5-v1_1-base - Google T5模型的改进版本 专注于文本到文本的转换任务
Huggingface模型迁移学习GithubT5预训练模型开源项目自然语言处理C4数据集
t5-v1_1-base是Google T5模型的升级版,引入GEGLU激活函数并采用无dropout预训练策略。该模型仅在C4数据集上进行预训练,使用前需针对特定任务微调。在文本摘要、问答和分类等多个自然语言处理任务中,t5-v1_1-base展现出卓越性能,为NLP领域提供了新的研究方向。
DialoGPT-small - 基于大规模预训练的多轮对话生成模型
多轮对话模型Github预训练模型开源项目Huggingface对话生成自然语言处理DialoGPT
DialoGPT-small是一个基于1.47亿多轮Reddit讨论数据训练的预训练对话生成模型。该模型在单轮对话图灵测试中表现接近人类水平,支持自然、连贯的多轮对话生成。DialoGPT-small为开发者提供了强大的对话AI基础,适用于开放式对话、问答和交互式场景,可用于构建聊天机器人和对话系统。
opt-1.3b - Meta AI开发的开源预训练Transformer语言模型系列
模型Github预训练模型OPT开源项目语言模型Huggingface自然语言处理人工智能
OPT是Meta AI开发的开源预训练Transformer语言模型系列,包含125M至175B参数的多个版本。采用先进数据收集和训练方法,性能可媲美GPT-3。该项目旨在推动大规模语言模型的可复现研究,让更多研究者参与探讨其影响。OPT主要应用于文本生成和下游任务微调,但仍存在偏见等局限性。
gpt2-xl - OpenAI开发的15亿参数GPT-2 XL语言模型
Huggingface模型深度学习Github预训练模型开源项目自然语言处理OpenAIGPT-2
GPT-2 XL是OpenAI开发的大规模transformer语言模型,拥有15亿参数。该模型在大规模英语语料库上预训练,可用于文本生成、写作辅助和创意写作等多种任务。尽管具有强大的语言理解能力,但GPT-2 XL也存在潜在偏见和误用风险。研究人员可利用它探索大型语言模型的行为、能力和局限性。
hubert-large-speech-emotion-recognition-russian-dusha-finetuned - HuBERT模型在俄语语音情感识别上的应用与优化
Huggingface模型语音情感识别Github预训练模型开源项目微调俄语HuBERT
该项目利用DUSHA数据集对HuBERT模型进行微调,实现了俄语语音情感识别。经优化后的模型在测试集上表现突出,准确率达0.86,宏F1分数为0.81,超越了数据集基准。模型能够识别中性、愤怒、积极、悲伤等情绪类型。项目还提供了简洁的使用示例代码,便于研究人员和开发者将其集成到语音情感分析任务中。
chronos-t5-mini - 基于T5架构的轻量级时间序列预测模型
基础模型模型Chronos-T5概率预测Github时间序列预测预训练模型Huggingface开源项目
Chronos-T5-Mini是一款基于T5架构的预训练时间序列预测模型,拥有2000万参数。该模型将时间序列转换为token序列进行训练,可生成概率性预测。Chronos-T5-Mini在大量公开时间序列数据和合成数据上训练,适用于多种时间序列预测任务。通过Chronos Pipeline,研究人员和开发者可以便捷地使用该模型进行推理,获得精确的预测结果。
layoutlm-large-uncased - 微软开发的多模态文档理解大型预训练模型
Huggingface模型多模态学习Github预训练模型信息提取开源项目文档理解LayoutLM
LayoutLM-large-uncased是微软开发的大型多模态文档理解预训练模型。该模型融合文本、版面布局和图像信息,在表单和收据理解等文档AI任务中表现出色。模型架构包括24层、1024隐藏单元、16个注意力头,总计3.43亿参数。经过1100万份文档的2轮预训练,LayoutLM为文档图像理解和信息提取任务提供了高效解决方案。
resnext101_32x16d.fb_swsl_ig1b_ft_in1k - Instagram预训练的ResNeXt模型用于图像分类和特征提取
Huggingface图像分类模型深度学习ResNeXttimmGithub预训练模型开源项目
该模型基于ResNeXt-B架构,在Instagram-1B数据集上进行半监督预训练,并在ImageNet-1k上微调。模型拥有1.94亿参数,接受224x224像素输入图像,适用于图像分类、特征图提取和图像嵌入任务。它采用ReLU激活函数、单层7x7卷积和池化,以及1x1卷积的shortcut连接。在ImageNet验证集上,模型达到83.35%的Top-1准确率,展现出优秀的性能。
biogpt - 生物医学领域的预训练生成式语言模型
模型Github预训练模型开源项目Huggingface文本生成BioGPT自然语言处理生物医学
BioGPT是一种针对生物医学领域的预训练生成式语言模型。该模型在大规模生物医学文献上训练,在多项自然语言处理任务中表现出色,尤其在关系抽取和问答任务上取得了显著成果。除了擅长分类任务外,BioGPT还具备强大的文本生成能力,能为生物医学术语提供流畅的描述。这些特性使得BioGPT在生物医学领域有广泛的应用前景。
codet5-base-multi-sum - CodeT5-base多语言代码摘要生成模型
代码摘要CodeT5Github预训练模型Huggingface开源项目自然语言处理多语言训练模型
CodeT5-base-multi-sum是基于CodeT5-base模型在CodeSearchNet数据集上微调的多语言代码摘要生成模型。支持Ruby、JavaScript、Go、Python、Java和PHP六种编程语言,采用平衡采样的多任务学习方法训练。模型在代码摘要生成任务上表现优异,总体BLEU分数为19.69。开发者可通过Hugging Face的transformers库轻松使用该模型,为多种编程语言的代码生成简洁准确的摘要。
VulBERTa-MLP-Devign - 基于深度学习的源代码安全漏洞检测模型
VulBERTa模型Github深度学习预训练模型Huggingface开源项目代码漏洞检测自然语言处理
VulBERTa-MLP-Devign是一种先进的深度学习模型,专门用于检测源代码中的安全漏洞。该模型采用RoBERTa架构和自定义分词流程,通过预训练真实的C/C++项目代码来学习深层次的语法和语义知识表示。在多个数据集的评估中,VulBERTa-MLP-Devign在二进制和多类漏洞检测任务上展现出卓越性能。凭借其简洁的设计理念、较小的训练数据需求和精简的模型参数,该模型为代码安全分析领域提供了一个高效而强大的工具。
bart-large - 用于自然语言生成和理解的预训练序列到序列模型
模型seq2seqGithubBART文本生成预训练模型Huggingface开源项目自然语言处理
BART是基于Transformer架构的预训练语言模型,结合了双向编码器和自回归解码器。通过去噪任务预训练,BART在文本生成(如摘要、翻译)和理解任务(如分类、问答)中均表现优异。该模型适用于多种自然语言处理任务,尤其在有监督数据集上进行微调后效果显著。BART为研究人员和开发者提供了强大的工具,推动了自然语言处理技术的发展。