#Transformer

机器学习Github开源项目SegFormer图像分类TransformerHuggingface语义分割模型

SegFormer b2是一个在ImageNet-1k上预训练的编码器模型，采用分层Transformer结构。该模型专为语义分割任务设计，结合了简单高效的架构和出色的性能。虽然此版本仅包含预训练的编码器部分，但它为图像分类和语义分割的微调提供了坚实基础。SegFormer的创新设计使其在多个计算机视觉任务中展现出强大潜力。

MERT-v1-95M - 新的音乐理解模型，适应多种任务需求

预训练模型Github模型开源项目音乐理解音频分类Transformer自监督学习Huggingface

MERT-v1-95M模型在音乐音频预训练中应用新的范式和数据集，实现出色的任务泛化能力。与MERT-v0相比，该版本采用更高质量的伪标签，在24K Hz频率下训练了20,000小时的音频数据，支持音乐生成。95M参数的模型适合不同的硬件需求，输出75 Hz的特征速率。通过整合MLM预测和批内噪声混合技术，MERT-v1-95M在多种下游任务中表现出色。

open-calm-3b - 基于日语数据集的解码器语言模型

日本语开源项目模型GithubHuggingfaceCyberAgentTransformerOpenCALM-3B语言模型

OpenCALM是由CyberAgent开发的语言模型，利用日语数据集进行训练，支持文本生成和自然语言处理。该模型使用GPT-NeoX库编写，提供多种规模的架构选择，如small、medium和large。open-calm-3b版本拥有2.7B参数，采用Transformer架构，提升了语言生成质量，适用于大规模日语语料库处理。

larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案

RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface

通过对比语言音频预训练技术，CLAP模型实现高效的音频和文本特征提取和分类，适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点，可用来评估音频与文本间的相似性，且能满足多种音频分类和嵌入需求。

xlm-roberta-large-wnut2017 - XLM-RoBERTa模型在多语言命名实体识别中的应用

XLM-RoBERTaGithub模型开源项目TransformerNERHuggingface模型微调自然语言处理

xlm-roberta-large-wnut2017是一个微调用于多语言命名实体识别的XLM-RoBERTa模型，具备多语言处理能力。使用者可以轻松地调用该模型以增强语言信息提取的效率。详情请参考TNER官方库。

Yi-9B-200K - Yi-9B-200K模型增强长文本处理，优化语言理解与推理

Yi系列大型语言模型开源项目模型Github开源Huggingface双语Transformer

Yi系列开源语言模型通过Yi-9B-200K提升长文本解析能力，表现于代码、数学和逻辑推理上尤为突出。该模型使用截至2023年6月的数据集训练，跨语言功能强大，适用于个人、学术和商业环境。

mobilevit-xx-small - 轻量级移动端视觉转换模型，适用于通用图像分类

图像分类ImageNet-1kMobileViTHuggingfaceGithub开源项目模型Transformer卷积神经网络

MobileViT模型的设计同时保证了轻量和低延迟性能，通过结合MobileNetV2和全局处理变换器块，适合各种图像分类应用。模型无需位置嵌入，已在ImageNet-1k数据集预训练并取得69%的top-1准确率。训练过程中采用简单的数据增强方法，可无须微调即可学到多尺度特征。目前支持PyTorch框架。

vit5-base - 用以越南语生成任务的预训练Transformer模型

ViT5-base编码解码器HuggingfaceVietnamese开源项目模型预训练GithubTransformer

这是一个先进的预训练Transformer编码解码模型，专门用于越南语生成任务。它支持文本摘要、翻译和问答功能，并在GitHub上提供使用和微调的详细示例。

SciPhi-Mistral-7B-32k - 基于Mistral-7B-v0.1增强科学推理与教育能力的AI模型

Transformer大语言模型教育能力开源项目SciPhi-Mistral-7B-32k模型HuggingfaceGithub科学推理

SciPhi-Mistral-7B-32k是从Mistral-7B-v0.1微调而来的大型语言模型，通过四轮微调和超过十亿个token的数据集，实现了卓越的科学推理及教育能力。其特点包括采用变压器架构、组内查询注意力、滑窗注意力，并支持字节回退BPE分词器。SciPhi-Self-RAG-Mistral-7B-32k当前可用，具体细节可查看相关文档。

rugpt3large_based_on_gpt2 - 俄语Transformer模型SberDevices团队的训练与评估

rugpt3large_based_on_gpt2Huggingface预训练模型Github开源项目SberDevices模型Transformer语言模型

SberDevices团队开发的俄语Transformer模型，基于PyTorch进行训练，使用80B个标记在1024序列长度下进行3轮训练，接着进行2048长度的微调。整个过程耗时14天，最终在测试集上的困惑度为13.6，为俄语处理提供了新的可能性。

Yi-34B-200K - 开源双语大模型提升长文本理解能力

Huggingface开源项目双语模型GithubYi开源大语言模型Transformer

Yi-34B-200K是开源的双语大语言模型，专注于提升长文本理解。通过在长时间上下文数据上训练5亿个token，Yi-34B-200K的『寻针与草垛』测试表现从89.3%提高到99.8%。其独特的数据集和高效的训练管道，使Yi系列在语言理解、常识推理和阅读理解方面表现优异，超过其他开源模型。该模型适用于个人、学术和中小企业，性价比较高。

deberta-v3-large-tasksource-nli - 自然语言推理的多任务学习模型，提升零样本分类性能

Transformer零样本分类DeBERTa-v3-large多任务学习模型Github开源项目自然语言推理Huggingface

DeBERTa-v3-large采用多任务学习，涵盖600多项任务，提升零样本分类性能。模型在多个数据集进行了训练，适用于自然语言推理与分类。其共享的编码器和特定CLS嵌入在多种分类任务中展现出色表现，在未调优状态下于WNLI和MNLI中分别达到了77%和90%的准确率，适合科研与实际应用。

Qwen2.5-1.5B-Instruct-bnb-4bit - Unsloth功能提升模型微调效率，优化内存占用

Github性能提升模型指令微调开源项目多语言支持TransformerHuggingfaceQwen2.5

Qwen2.5系列包括多种尺寸和优化功能，提升编程与数学能力，支持29种语言，并具备长上下文处理能力。利用Google Colab上的免费notebook，可实现模型微调的速度提升和内存使用优化。Qwen2.5-1.5B-Instruct强化了指令响应、长文本生成、多语言处理及结构化数据处理能力。

t5-large-medium - 基于Transformer的日文预训练模型，提高NLP任务性能

Retrieva日语HuggingfaceT5 v1.1开源项目模型预训练GithubTransformer

该T5 v1.1模型基于Transformer架构，专为日文语料进行预训练。通过使用GEGLU激活函数代替ReLU，提升了文本生成质量。模型在预训练时关闭Dropout以提升泛化能力，微调时可重启。训练数据包括mC4/ja和日本Wikipedia，确保日文内容的纯净性。此大型模型拥有约7.7亿参数，适用于广泛的日文自然语言处理任务，表现出优异的性能与适应性。

mask2former-swin-large-cityscapes-panoptic - 在图像分割任务中，Mask2Former模型以高效提升性能

TransformerHugging Face图像分割Mask2Former模型GithubCityscapes开源项目Huggingface

该项目使用Mask2Former模型，整合多尺度变形注意力和掩码注意力机制，在实例、语义及全景分割任务中展现卓越性能。相比之前的MaskFormer，Mask2Former实现效果提升与计算简化，在Cityscapes全景分割任务中表现突出，充分展示了其在图像分割中的应用潜力。

detr-resnet-50-panoptic - DETR模型：结合ResNet-50的端到端目标检测与全景分割

Transformer计算机视觉开源项目目标检测模型DETRHuggingface语义分割Github

DETR-ResNet-50是一种创新的目标检测模型，融合了Transformer和卷积神经网络技术。该模型在COCO数据集上训练，支持端到端的目标检测和全景分割。通过100个对象查询机制，DETR实现了高效准确的目标识别。在COCO 2017验证集上，模型展现出优秀性能：框AP为38.8，分割AP为31.1，全景质量(PQ)达43.4。这一模型为计算机视觉任务提供了新的解决方案。

nq-distilbert-base-v1 - 句子向量化提升语义搜索与聚类效率

Transformer句子嵌入开源项目模型评估模型Huggingfacesentence-transformers句子相似度Github

nq-distilbert-base-v1模型以sentence-transformers为基础，将句子和段落转换为768维向量，以支持聚类和语义搜索任务。通过安装sentence-transformers库可轻松使用，具备丰富的使用选项，包括通过HuggingFace Transformers实现上下文嵌入和均值池化等应用，广泛适用于文本相似性评估、内容聚类和语义检索等自然语言处理任务，提供可靠性能与灵活应用场景。

OLMo-1B-hf - 结合开放性与多功能性提升语言模型科学

开放语言模型开源项目模型GithubHuggingfaceTransformerDolma数据集OLMo语言模型

OLMo是一个由Allen Institute for AI开发的开源语言模型，支持Hugging Face Transformers格式和Dolma数据集，具有自回归Transformer架构，适合多种语言处理任务，涵盖完整训练代码和检查点。

Efficient-AI-Backbones: 华为诺亚方舟实验室开发的高效AI骨干网络

2024年08月30日

深度学习论文实现大全:annotated_deep_learning_paper_implementations项目解析

2024年08月30日

深度学习论文实现大全:annotated_deep_learning_paper_implementations项目解析

2024年08月30日

Trax: Google开源的深度学习库 - 清晰代码与高速性能的完美结合

AiLearning-Theory-Applying: 快速掌握AI理论与实战的开源学习项目

2024年08月30日

Transformers学习指南：从入门到精通

2024年08月30日

Microsoft/TrOCR-识别手写文字的利器，让AI在教育领域更进一步

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com