#Transformer

transformer-abstractive-summarization - Transformer模型实现的抽象文本摘要项目
Transformer文本摘要注意力机制深度学习自然语言处理Github开源项目
transformer-abstractive-summarization是一个开源项目,利用Transformer模型实现抽象文本摘要。项目基于'Attention is all you need'论文提出的Transformer模型,使用Inshorts数据集训练。项目提供博客教程,详细介绍Transformer原理及其在文本摘要中的应用。该技术能生成高质量摘要,适用于新闻和文档处理等领域。项目采用Apache License 2.0许可证。
FLASH-pytorch - FLASH 线性时间内提升Transformer效能的开源实现
FLASHTransformer深度学习注意力机制PyTorchGithub开源项目
FLASH-pytorch是一个开源项目,实现了一种高效的Transformer变体。该项目采用门控注意力单元(GAU)和分组线性注意力,在线性时间内提升模型性能。它提供简洁API,支持自回归和非自回归模式,并整合多种位置编码技术。这一工具使研究人员和开发者能够便捷地探索和应用Transformer的最新优化技术。
Yi-6B-Chat - Yi-6B-Chat 打造开源双语语言模型的新篇章
Yi开源Transformer人工智能模型Github开源项目大语言模型Huggingface
Yi系列模型由01.AI研发,是强大的开源双语大型语言模型,其在多语言理解、常识推理及阅读理解方面表现突出。Yi-34B-Chat在AlpacaEval评估中表现优异,仅次于GPT-4 Turbo。Yi-34B在多个基准表现出色,如Hugging Face开放LLM排行榜和C-Eval评估。该系列采用Transformer架构,并与开源社区合作,独立开发高质量数据集和训练管道,确保优异性能。
segformer-b4-finetuned-ade-512-512 - 512x512分辨率下SegFormer的高效Transformer语义分割实现
图像处理ADE20kHuggingfaceSegFormerGithub开源项目语义分割Transformer模型
本项目展示了SegFormer模型如何应用在ADE20k数据集上,以512x512分辨率进行微调。该模型采用分层Transformer编码器与轻量级全MLP解码头的设计,并在ImageNet-1k预训练后用于语义分割。其适用于多个基准测试如ADE20K和Cityscapes,为视觉分割提供强大而灵活的工具。用户可以使用该模型进行图像的语义分割,或选择适合特定任务的微调版本。
Anita - 意大利语问答模型为客户支持和信息检索提供有效解决方案
DeepMount00/Anita自动化客户支持问答Huggingface开源项目模型Github意大利语Transformer
该模型专注于处理意大利语问答任务,适用于需要识别最相关答案上下文的场景。通过基于Transformer的架构,该模型针对意大利语的特性进行了优化,适合用于客户支持自动化、教育工具以及信息检索系统,提升应用效果。
qwen - Qwen模型在Habana Gaudi处理器上的配置与训练概述
Optimum Habana开源项目模型GithubHuggingfaceTransformerQwen模型Gaudi处理器混合精度
通过Optimum Habana接口,在Habana Gaudi处理器上实现Qwen模型的高效加载和训练。该接口简化了单个和多个HPU设置下的训练流程,并支持自定义AdamW优化器、梯度剪辑和PyTorch混合精度功能。用户可以通过配置GaudiConfig文件以及特定的HPU训练参数,利用语言模型示例代码,以充分发挥HPUs的性能。更多信息和详细用例请参考Hugging Face的文档及GitHub资源。
albert-base-v2 - ALBERT基础模型v2实现高效自然语言处理
TransformerHuggingface模型深度学习Github预训练模型ALBERT开源项目自然语言处理
albert-base-v2是ALBERT架构的预训练语言模型,采用掩码语言建模和句子顺序预测训练。模型包含12个重复层、128维嵌入、768维隐藏层和12个注意力头,参数总量为11M。通过共享层权重,实现了较小的内存占用。相比v1版本,v2在多数下游自然语言处理任务中表现更优,适用于各类NLP应用场景。
layoutlmv3-large - 统一文本和图像掩码的文档AI预训练模型
模型开源项目多模态模型文档AI预训练HuggingfaceTransformerGithubLayoutLMv3
LayoutLMv3是一种用于文档AI的多模态Transformer模型,由Microsoft Document AI项目开发。该模型采用统一的文本和图像掩码预训练方法,架构简单且通用。LayoutLMv3可应用于表单理解、收据识别、文档视觉问答等文本相关任务,以及文档图像分类和布局分析等图像相关任务。这种灵活性使其成为文档AI领域的通用预训练模型,为多种文档处理任务提供了有力支持。
detr-resnet-50 - DETR 基于Transformer的创新目标检测模型
模型目标检测DETRCOCO数据集开源项目HuggingfaceResNet-50TransformerGithub
DETR-ResNet-50是一种创新的目标检测模型,融合Transformer架构与ResNet-50骨干网络。该模型采用端到端训练方法,简化了传统目标检测流程。经COCO 2017数据集训练后,DETR能高效检测和定位图像中的多个物体,在目标检测任务中实现42.0的平均精度(AP)。其简洁设计和卓越性能为计算机视觉领域带来新的可能。
gpt2-medium - OpenAI开发的中型GPT-2语言模型用于多样化文本生成
语言模型TransformerHuggingface模型Github开源项目自然语言处理OpenAIGPT-2
GPT-2 Medium是OpenAI开发的355M参数语言模型,基于transformer架构。该模型在大规模英文语料上预训练,可应用于文本生成、写作辅助和创意创作等领域。它展现出强大的语言理解和生成能力,但同时也存在潜在偏见和生成不实信息的风险。GPT-2 Medium主要面向研究人员和从业者,用于探索大型生成语言模型的特性和局限性。
segformer-b1-finetuned-ade-512-512 - SegFormer-b1在ADE20k数据集上微调的语义分割模型
模型语义分割Github图像处理深度学习TransformerSegFormer开源项目Huggingface
SegFormer-b1是一种针对语义分割任务的深度学习模型,在ADE20k数据集上进行了微调。该模型结合了层次化Transformer编码器和轻量级MLP解码头,在512x512分辨率下展现出优秀的分割效果。模型经过ImageNet-1k预训练后,通过添加解码头并在特定数据集上微调,可直接应用于语义分割或作为其他相关任务的基础。
detr-resnet-101 - DETR目标检测模型:结合ResNet-101与Transformer架构
Transformer计算机视觉Huggingface模型COCOGithub开源项目DETR物体检测
DETR是一种创新的端到端目标检测模型,结合了Transformer架构和ResNet-101骨干网络。该模型在COCO 2017数据集上训练,能高效检测图像中的多个物体。通过独特的对象查询机制和双向匹配损失函数,DETR在目标检测任务中表现优异,达到43.5%的平均精度。这一方法为计算机视觉领域开辟了新的研究方向。
xlnet-base-cased - 创新的广义排列语言建模与自回归预训练技术
模型XLNetGithub预训练模型Transformer开源项目Huggingface机器学习自然语言处理
XLNet是一种创新的无监督语言表示学习方法,采用广义排列语言建模目标和Transformer-XL架构。这使得它在处理长上下文语言任务时表现卓越,并在多个下游任务中取得了领先成果。作为一个预训练模型,XLNet主要用于微调特定任务,尤其适合需要理解完整句子的应用场景,如序列分类、标记分类和问答系统等。
Qwen1.5-14B-Chat - Qwen1.5系列多语言大规模语言模型支持32K上下文
模型聊天模型多语言支持GithubQwen1.5大语言模型TransformerHuggingface开源项目
Qwen1.5是Qwen2的测试版,包含多种规格的大规模语言模型。该系列支持多语言处理,所有规格均可稳定支持32K上下文长度。相比前代模型,Qwen1.5在聊天模型的人类偏好评估中表现显著提升。该模型采用Transformer架构,集成了SwiGLU激活、注意力QKV偏置等技术。模型经过大规模数据预训练和偏好优化,可通过transformers库轻松加载使用。
moirai-1.0-R-small - Moirai 开源预训练时间序列预测模型
TransformerMoirai时间序列预测Huggingface模型机器学习Github预训练模型开源项目
Moirai-1.0-R-small是一个开源的预训练时间序列预测模型。它基于掩码编码器架构,在LOTSA数据集上训练,可处理多变量时间序列。该模型使用补丁嵌入和混合分布输出等技术,提供高精度预测。通过uni2ts库,研究人员和开发者可以便捷地将Moirai应用于各类时间序列预测任务。
segformer-b2-finetuned-ade-512-512 - SegFormer模型实现高效语义分割的新方法
视觉TransformerHugging Face图像分割SegFormerGithub模型开源项目Huggingface
SegFormer模型在ADE20K数据集上微调,支持512x512分辨率图像的语义分割,由层次Transformer编码器和轻量级MLP解码头构成,适用于ADE20K和Cityscapes等基准。模型先在ImageNet-1k上预训练,再在下游任务上微调,适合多种分割任务。
phi-1_5 - 13亿参数的语言模型展现卓越性能
语言模型模型人工智能GithubTransformerPhi-1.5Huggingface开源项目自然语言处理
Phi-1.5是微软开发的13亿参数Transformer语言模型,在10亿参数以下模型中展现近乎最先进的性能。它未经指令微调,主要用于研究语言模型的安全性和改进。该模型支持多种任务,包括文本生成和代码编写,适用于问答、聊天和编程场景。然而,用户应注意其输出可能存在偏见或不准确,仅供研究参考。
bert-fa-base-uncased-ner-peyma - 基于BERT的波斯语命名实体识别模型ParsBERT
TransformerHuggingface模型命名实体识别Github开源项目自然语言处理波斯语ParsBERT
ParsBERT是一个用于波斯语命名实体识别(NER)的开源模型。该模型基于BERT架构,在PEYMA数据集上训练,可识别7类命名实体。在PEYMA测试集上,ParsBERT实现了93.40%的F1分数,超越了此前的模型。研究者可通过Hugging Face Transformers库便捷地应用此模型进行波斯语NER任务。
mit-b5 - SegFormer层次化Transformer编码器预训练模型
模型语义分割图像分类Github预训练模型TransformerSegFormer开源项目Huggingface
SegFormer (b5-sized) encoder是一个在ImageNet-1k上预训练的语义分割模型。它采用层次化Transformer编码器结构,为下游任务微调提供基础。该模型在ADE20K和Cityscapes等语义分割基准测试中表现优异,同时也适用于图像分类等相关任务。用户可通过简洁的Python代码轻松调用此模型进行实验和应用开发。
clip-rsicd-v2 - 专为遥感图像优化的零样本分类和检索模型
TransformerHuggingface模型遥感图像Github开源项目图像检索CLIP零样本分类
clip-rsicd-v2是一个基于CLIP的微调模型,专注于提升遥感图像的零样本分类和检索能力。该模型采用ViT-B/32架构和掩码自注意力Transformer分别作为图像和文本编码器。通过在RSICD、UCM和Sydney等遥感数据集上训练,clip-rsicd-v2在多项检索任务中显著超越原始CLIP模型。研究人员可利用此模型深入探究计算机视觉模型的鲁棒性和泛化能力。
opus-mt-en-nl - 基于OPUS数据集的英荷双语机器翻译模型
Transformer机器翻译HuggingfaceOPUS-MT模型Github英语到荷兰语开源项目BLEU评分
opus-mt-en-nl是一个英语到荷兰语的机器翻译模型,基于transformer-align架构构建。该模型利用OPUS数据集训练,并应用了normalization和SentencePiece预处理技术。在Tatoeba测试集上,模型达到了57.1的BLEU分数和0.730的chr-F分数,显示出较高的翻译质量。模型提供了原始权重和测试集翻译结果的下载,方便研究者进行评估和应用。
sat-3l-sm - 基于Transformer的多语言句子分割模型
模型Github开源项目Huggingface分词Transformer自然语言处理多语言wtpsplit
sat-3l-sm是一个基于3层Transformer架构的句子分割模型,支持80种语言的文本分段。作为wtpsplit库的核心组件,该模型采用MIT许可证开源。sat-3l-sm源于'Segment any Text'研究,为自然语言处理提供准确的句子边界检测功能。
mask2former-swin-large-ade-semantic - Mask2Former:统一架构实现多类型图像分割
模型Github图像分割语义分割开源项目HuggingfaceTransformerMask2Former计算机视觉
Mask2Former-Swin-Large-ADE-Semantic是一款先进的图像分割模型,基于Swin backbone构建并在ADE20k数据集上训练。该模型采用统一架构处理实例、语义和全景分割任务,通过预测掩码和标签集实现多类型分割。其核心优势在于采用改进的多尺度可变形注意力Transformer和掩码注意力Transformer解码器,在性能和效率方面均优于前代MaskFormer模型。Mask2Former适用于广泛的图像分割场景,能够提供精确的分割结果。
sat-3l - 高效的多语言句子分割模型
句子分割HuggingfaceTransformer模型wtpsplitGithub开源项目sat-3l多语言
sat-3l模型利用三层Transformer实现了先进的多语言句子分割,提升了文本处理的效率与精准度。详细信息请参阅Segment any Text相关论文。
segformer-b5-finetuned-ade-640-640 - SegFormer-b5模型用于ADE20k数据集的语义分割
语义分割Transformer图像处理Huggingface模型深度学习Github开源项目SegFormer
SegFormer-b5是一个针对ADE20k数据集640x640分辨率微调的语义分割模型。该模型采用层次化Transformer编码器和轻量级MLP解码头,在ADE20K等基准测试中表现优异。模型在ImageNet-1k预训练后,添加解码头并在目标数据集上微调,可应用于多种语义分割任务。
mit-b4 - 使用SegFormer预训练模型提升语义分割效率
Hugging FaceImageNetTransformer开源项目模型Huggingface语义分割GithubSegFormer
此项目提供SegFormer的b4-sized预训练模型,具有分层Transformer和轻量级MLP解码头,在ADE20K和Cityscapes等基准上展现出色性能。经过ImageNet-1k预训练的SegFormer可用于下游任务微调,满足多种应用需求。用户可在[模型库](https://huggingface.co/models?other=segformer)中根据任务需求选择合适版本,优化图像分割效果。
seggpt-vit-large - 基于上下文的单次图像分割解决方案
图像分割GithubSegGPT模型开源项目TransformerHuggingface生成模型语义分割
SegGPT项目采用了类似GPT的Transformer模型,它可以在提供输入图像和提示的情况下生成分割掩码,并在COCO-20和FSS-1000数据集上实现了优异的单次图像分割效果。此模型适合用于需要高精度和上下文整合的图像分割应用场景。
mit-b0 - 轻量级视觉Transformer用于语义分割
模型语义分割开源项目Huggingface图像处理SegFormerTransformerGithub深度学习
mit-b0是SegFormer系列中的轻量级模型,采用分层Transformer编码器架构,在ImageNet-1k数据集上预训练。这个模型专为语义分割任务设计,结合了Transformer的特征提取能力和轻量级MLP解码头。mit-b0在ADE20K等基准测试中表现出色,为研究人员提供了一个可靠的预训练基础,可在特定数据集上进行进一步微调和优化。
segformer-b5-finetuned-cityscapes-1024-1024 - SegFormer-b5模型在CityScapes数据集上微调的语义分割应用
图像处理模型SegFormer深度学习Github语义分割Huggingface开源项目Transformer
SegFormer-b5是一个在CityScapes数据集上微调的语义分割模型。它结合层次化Transformer编码器和轻量级MLP解码头,在1024x1024分辨率下展现优秀性能。该模型经ImageNet-1k预训练后,通过添加解码头并在特定数据集微调,可应用于自动驾驶场景理解等多种语义分割任务。
mpt-7b-chat - 对MPT-7B-Chat模型的优化及其在开源LLaMA对话生成中的进展
Transformer开源项目MosaicML模型对话生成Huggingface开源MPT-7B-ChatGithub
MPT-7B-Chat是MosaicML开发的对话生成模型,通过微调著名数据集提高生成效果,采用去掉位置嵌入的改进型解码器架构及FlashAttention、ALiBi等创新技术,支持较长序列训练与微调。此模型在MosaicML平台研发,可通过MosaicML与Hugging Face加载,尽管输出可能包含错误或偏见,仍为开发者提供了一个开源的对话生成提升工具。
VILA1.5-13b - 多图像推理与跨设备应用的视觉语言模型
VILAGithub开源项目多模态TransformerHuggingface多图推理视觉语言模型模型
此页面介绍VILA模型,一种用于多模态研究的视觉语言模型,通过大规模图文数据预训练,提升多重推理能力。VILA支持多图像推理、情境学习,并提供更丰富的知识表现。通过AWQ 4bit量化,模型适用于Jetson Orin等边缘设备,兼顾性能与兼容性。适合计算机视觉与自然语言处理结合的研究者,支持Linux系统,具备出色的指令跟随和视觉推理能力。
Qwen1.5-4B-Chat - 支持多语种与长上下文的高级语言模型
开源项目模型Github多语言支持性能提升HuggingfaceTransformerQwen1.5语言模型
Qwen1.5是一种基于变压器架构的语言模型,提供八种型号,支持多语言处理和32K字符的上下文长度。这一版本在聊天模型的人类偏好方面表现显著提升,且不需要信任远程代码。改进涉及高级激活函数、注意力机制和多语言适应分词器。模型已在Hugging Face Transformers库上线,建议使用最新版本以避免可能错误。适用于多种文本生成任务,包含多种量化轻量化模型以满足不同需求。
mit-b1 - SegFormer分层Transformer编码器用于语义分割
机器学习图像分割GithubSegFormerHuggingface语义分割开源项目模型Transformer
mit-b1是SegFormer模型的预训练编码器,采用分层Transformer结构,在ImageNet-1k数据集上完成预训练。该模型主要用于语义分割任务的微调,可通过添加轻量级全MLP解码头实现。mit-b1在ADE20K和Cityscapes等基准测试中表现优异,为语义分割提供了高效的特征提取能力,适用于多种下游任务。
wmt19-en-de - Facebook FSMT英德双向机器翻译模型
机器翻译FSMTWMT19BLEUGithub开源项目TransformerHuggingface模型
Facebook AI Research团队开发的FSMT英德双向翻译模型,基于Transformer架构,在WMT19新闻翻译任务中BLEU分数达到42.83。模型支持通过Hugging Face Transformers库实现英德互译功能。该模型在WMT19数据集上训练,但在处理包含重复短语的输入时存在一定局限性。
deit_tiny_patch16_224.fb_in1k - 高效数据处理的DeiT图像分类和特征提取模型
ImageNetTransformerDeiT图像分类开源项目timm模型HuggingfaceGithub
DeiT图像分类模型经过在ImageNet-1k数据集上的训练,通过注意力机制提高数据处理效率。它的紧凑架构具有5.7百万参数和1.3 GMACs,适用于224x224像素图像,可用于图像分类和嵌入生成。此项目具备广泛的库支持,易于集成,是研究者获取高效图像处理能力的理想工具。
data2vec-audio-base-960h - 利用自监督学习提升语音识别效率的开源框架
自动语音识别语言模型Github开源项目Transformer自监督学习HuggingfaceData2Vec模型
Data2Vec是一种开源模型,基于Librispeech数据集进行960小时的16kHz语音音频的预训练和微调,在语音识别领域表现优异。利用自监督学习与自蒸馏手段,Data2Vec准确提取上下文信息,优化了自动语音识别的表现。在LibriSpeech的测试中,取得了“clean”任务2.77和“other”任务7.08的词错误率(WER),体现了其在业内的竞争力。