#Transformer

hardware-aware-transformers - 瞄准多硬件平台优化的自然语言处理Transformer模型

HAT项目提供基于PyTorch的硬件感知Transformer，模型大小减小至原来的3.7倍，且性能无损。通过SuperTransformer搜索优化的SubTransformer，大幅降低搜索成本，并在不同硬件平台例如Raspberry Pi和Intel Xeon上实现显著加速。支持多种机器翻译任务，并提供预处理数据和预训练模型的直接下载。

Gemini - Gemini多模态变换器，支持图像和音频解析

Gemini多模态Transformer图像嵌入音频处理Github开源项目

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器，具备特殊解码功能来生成图像。其架构类似于Fuyu，但扩展至多种模态，并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略，初步实现图像嵌入，后续将集成音频和视频嵌入。

TransMorph_Transformer_for_Medical_Image_Registration - 基于Transformer的无监督医学图像配准方法

TransMorphTransformer医学影像配准深度学习PyTorchGithub开源项目

TransMorph是一个利用Transformer架构进行无监督医学图像配准的开源项目，结合了Vision Transformer和Swin Transformer技术。提供多个模型变体和多种损失函数，支持单模态和多模态配准，公开了训练脚本和预训练模型，并在MICCAI 2021 L2R挑战中表现出色。

SpecVQGAN - 使用视觉提示生成高保真声音的方法

SpecVQGAN声谱图代码本Transformer训练模型Github开源项目

SpecVQGAN项目提出了一种利用视觉提示生成声音的方法。通过将训练数据集缩小到一组代表向量（代码本），这些代码本向量可被控地进行采样，从而根据视觉提示生成新声音。项目使用VQGAN的训练方法在频谱图上训练代码本，并通过GPT-2变体的transformer在视觉特征条件下自回归地采样代码本条目。这种方法可以生成长时间、相关且高保真的声音，并支持多种数据类别。

DAFormer - 提升域适应语义分割的网络架构与训练策略

DAFormer域自适应语义分割语义分割Transformer网络架构Github开源项目

通过Transformer编码器和多级上下文感知特征融合解码器，显著提升域适应语义分割性能。DAFormer使用稀有类采样、ImageNet特征距离和学习率预热等策略，提升GTA→Cityscapes和Synthia→Cityscapes的分割效果，并扩展至域泛化领域。在多个UDA基准上，DAFormer显著超越了前沿方法，成为领域推广和不受目标图像限制的语义分割任务中新的性能标杆。

ByteTransformer - 为BERT类Transformer优化的高性能推理库

ByteTransformerBERTTransformerNVIDIA GPU高性能Github开源项目

ByteTransformer是一个为BERT类Transformer优化的高性能推理库，支持Python和C++ API，兼容固定长度和可变长度Transformer。通过对BERT例程中的QKV编码、软最大值、前馈网络、激活、层归一化和多头注意力机制进行优化，ByteTransformer为字节跳动的内部推理系统提升了性能。基准测试结果显示，相较于PyTorch、TensorFlow、FasterTransformer和DeepSpeed，ByteTransformer在A100 GPU上的推理速度更快。

TransBTS - 使用Transformer实现多模态脑肿瘤医学图像分割

TransBTSTransBTSV2脑肿瘤分割多模态数据集TransformerGithub开源项目

TransBTS与TransBTSV2采用Transformer技术显著提升多模态脑肿瘤与医学图像体积分割的效率与准确性。项目包括详细的模型实现和相关文献，支持BraTS、LiTS、KiTS等医学图像数据集，并利用Python和Pytorch进行数据预处理、模型训练和测试，支持分布式训练。适用于需要高效精准医学图像分割解决方案的研究人员和工程师。

actionformer_release - 基于Transformer的高精度动作时刻定位模型

ActionFormerTransformer时序动作定位THUMOS14ActivityNetGithub开源项目

actionformer_release是一个基于Transformer的动作定位模型，能够检测动作实例的起止点并识别动作类别。在THUMOS14数据集上，该模型取得了71.0%的mAP，超越之前的最佳模型14.1个百分点，并首次突破60%的mAP。此外，该模型在ActivityNet 1.3和EPIC-Kitchens 100数据集上也取得了优异成绩。该项目设计简洁，通过局部自注意力机制对未剪辑视频进行时间上下文建模，并可一次性精确定位动作时刻。代码和预训练模型已开源，可供下载和试用。

detrex - 开源Transformer检测算法工具箱

detrexTransformerobject detectionDetectron2PytorchGithub开源项目

detrex是一个开源工具箱，专为最先进的Transformer检测算法提供支持。该工具箱基于Detectron2构建，并参考了MMDetection和DETR的模块设计。detrex模块化设计，提供强大基线，通过优化超参数将模型性能提升至0.2至1.1AP。该工具箱轻量易用，支持最新算法如Focus-DETR、SQR-DETR、Align-DETR、EVA-01和EVA-02，帮助用户构建定制模型。

optimum - 提升模型在不同硬件上的训练和运行效率的一系列优化工具

Hugging Face OptimumONNX RuntimeOpenVINOTransformer训练模型Github开源项目

Optimum扩展了Transformers和Diffusers，提供了一系列优化工具，提升模型在不同硬件上的训练和运行效率。支持的硬件平台包括ONNX Runtime、Intel Neural Compressor、OpenVINO、NVIDIA TensorRT-LLM、AMD Instinct GPUs、AWS Trainium & Inferentia、Habana Gaudi处理器和FuriosaAI。Optimum支持多种优化技术，如图优化、动态量化、静态量化和量化感知训练，配有详尽的文档和示例代码，帮助用户导出和运行优化后的模型。

nlp-journey - 深度学习和自然语言处理重要书籍与论文汇总

nlp journeyTransformerDeep LearningGitHubDeep Learning BookGithub开源项目

页面汇总了深度学习与自然语言处理领域的重要书籍、论文和资源，包括Transformer模型、预训练技术、分类方法、文本生成、句子相似度、问答系统和神经机器翻译等主题。提供从入门到高级的详尽资料，帮助用户了解和掌握自然语言处理技术及最新发展。

Autoformer - 具有自相关性的分解变压器，用于长期序列预测

Autoformer时间序列预测Transformer自动相关机制长期预测Github开源项目

Autoformer是一种长时间序列预测的通用模型，采用分解变压器和自动相关机制，实现38%的预测精度提升，覆盖能源、交通、经济、天气和疾病等应用领域。最近，该模型已被纳入Hugging Face和Time-Series-Library，并在2022年冬奥会中用于天气预报。Autoformer不同于传统Transformer，不需位置嵌入，具备内在的对数线性复杂度，易于实现和复现。

TSFpaper - 时间序列与时空预测论文精选合集

Time Series ForecastingSpatio-Temporal Forecastingdeep learningTransformermultivariate forecastingGithub开源项目

本仓库收录了300多篇时间序列与时空预测的论文，涵盖多种预测模型类型。这些论文包括顶级会议和期刊发表的研究成果以及最新的arXiv论文。支持单变量、多变量及不规则时间序列预测，广泛应用于交通和天气等领域。仓库内容持续更新，并推荐热门工具库和最新模型，是时间序列预测研究的重要资源。

LLM101n - 深度学习课程教你构建AI讲故事模型

LLMAI深度学习TransformerPythonGithub开源项目

LLM101n深度学习课程从零教授构建AI讲故事模型。内容涵盖语言建模、机器学习、Transformer架构等核心知识，指导学员开发功能完善的Web应用。课程采用Python、C和CUDA编程，适合具备基础计算机科学知识的学习者。除核心AI技术外，还包括分布式优化、量化推理、微调等高级主题，以及多模态AI应用开发。通过实践，学员将掌握AI、大型语言模型和深度学习原理，能够独立创作、优化并为小故事配图。

awesome-decision-transformer - 基于序列模型的离线强化学习新方法

Decision Transformer强化学习序列建模Transformer离线学习Github开源项目

Decision Transformer (DT)是一种将离线强化学习转化为条件序列建模的创新方法。本项目收集了DT相关研究论文,涵盖多智能体系统、安全强化学习、多任务学习等应用领域。通过持续追踪DT的前沿进展,为研究人员提供全面的资源,促进这一算法在各个领域的发展和应用。

EET - Transformer模型推理加速引擎

EETTransformer推理AI模型性能优化Github开源项目

EET是一个专注于Transformer模型的PyTorch推理加速引擎。它支持百川、LLaMA等大规模语言模型,提供int8量化功能,可在单GPU上高效运行超大模型。EET通过CUDA内核优化和量化算法显著提升多模态及NLP任务的推理性能,为Transformers和Fairseq提供开箱即用的加速方案。使用EET只需几行代码即可实现模型的高效部署与推理。

detr - Transformer架构重塑目标检测流程

DETR目标检测Transformer计算机视觉深度学习Github开源项目

DETR项目运用Transformer架构创新性地改进了目标检测方法。该方法将传统的复杂流程转化为直接的集合预测问题，在COCO数据集上达到42 AP的性能表现，同时计算资源消耗减半。DETR结合全局损失函数与编码器-解码器结构，实现了图像的高效并行处理，大幅提升了目标检测的速度和准确性。项目开源了简洁的实现代码和预训练模型，便于研究人员进行深入探索和实际应用。

PixArt-alpha - 高效训练的Transformer扩散模型实现逼真文本到图像生成

PixArt-α文本生成图像扩散模型Transformer高效训练Github开源项目

PixArt-α是一个基于Transformer的文本到图像扩散模型，其生成图像质量可与Imagen、SDXL等最先进的图像生成器相媲美。该模型的训练速度显著超过现有大规模模型，仅需Stable Diffusion v1.5训练时间的10.8%。通过采用训练策略分解、高效Transformer结构和高信息量数据等创新设计，PixArt-α在大幅降低训练成本的同时，保证了优秀的图像生成质量、艺术性和语义控制能力。

Latte - 创新的潜在扩散Transformer视频生成技术

Latte视频生成AI模型深度学习TransformerGithub开源项目

Latte是一种新型视频生成模型，采用潜在扩散Transformer技术。该模型在多个标准数据集上表现优异，并支持文本到视频的生成。项目提供PyTorch实现、预训练模型和相关代码，为视频生成研究提供了重要参考。Latte在建模视频分布方面采用了创新方法，为未来研究提供了新的思路。

TATS - 创新长视频生成框架基于时间无关VQGAN和时间敏感Transformer

TATS视频生成VQGANTransformer长视频生成Github开源项目

TATS项目是一个创新的长视频生成框架，通过结合时间无关的VQGAN和时间敏感的Transformer模型，实现了高效的长视频生成。该技术仅需使用数十帧视频进行训练，就能利用滑动窗口方法生成包含数千帧的连贯视频。TATS支持无条件生成以及基于文本、音频等条件的视频生成，为视频内容创作开辟了新的可能性。

trl - 用于大型语言模型微调和对齐的开源工具库

TRL微调大语言模型强化学习TransformerGithub开源项目

TRL是一个开源的全栈工具库，专用于大型语言模型的微调和对齐。它支持监督式微调、奖励建模和近端策略优化等方法，适用于多种模型架构。该库基于Transformers构建，提供灵活的训练器和自动模型类，并集成Accelerate、PEFT等工具实现高效扩展。TRL还提供命令行界面，方便用户进行模型微调和交互。

Transformer-from-scratch - 简洁实现Transformer模型的入门教程

TransformerLLMPyTorch模型训练自然语言处理Github开源项目

该项目展示了如何用约240行代码实现Transformer模型,包含基于PyTorch的训练演示和详细的Jupyter Notebook。使用450Kb样本数据集,在单CPU上20分钟内完成训练,帮助初学者理解大型语言模型的原理和实现过程。

Flowformer - Flowformer 利用保护流网络实现 Transformer 线性化和长序列处理

注意力机制流网络理论Github开源项目FlowformerTransformer线性复杂度

Flowformer 是一种 Transformer 模型，通过引入保护流网络理论，实现了线性复杂度的注意力机制。它能够处理超过4000多个标记的长序列，在视觉、自然语言处理、时间序列和强化学习等领域表现优异。在长序列建模任务中，Flowformer 的平均准确率达到56.48%，超过了 Performer 和 Reformer 等现有方法。该项目不依赖特定归纳偏置，提供了核心代码实现和多个领域的应用示例，为研究人员和开发者提供了一个通用的基础模型。

fast-DiT - 改进PyTorch实现的可扩展扩散模型转换器

DiT扩散模型Transformer图像生成PyTorchGithub开源项目

fast-DiT 项目提供了扩散模型转换器（DiT）的改进 PyTorch 实现。该项目包含预训练的类条件 DiT 模型、Hugging Face Space 和 Colab 笔记本，以及优化的训练脚本。通过采用梯度检查点、混合精度训练和 VAE 特征预提取等技术，显著提升了训练速度和内存效率。这一实现为研究人员和开发者提供了探索和应用扩散模型的有力工具。

RGT - 递归泛化Transformer模型实现高效图像超分辨率

图像超分辨率TransformerRGT全局上下文自注意力机制Github开源项目

RGT项目提出递归泛化Transformer模型,通过创新的自注意力机制高效捕获图像全局信息。该模型结合局部和全局特征,在图像超分辨率任务中实现了优异性能,为高质量图像重建提供新思路。实验结果显示RGT在多个评估指标上超越了现有先进方法。

scenic - 多模态视觉智能研究框架

Scenic计算机视觉JAXTransformer深度学习Github开源项目

Scenic是一个基于JAX的开源视觉智能研究框架,聚焦注意力机制模型。它提供轻量级共享库和完整项目实现,支持分类、分割、检测等任务,可处理图像、视频、音频等多模态数据。Scenic内置多个前沿模型和基线,有助于快速原型设计和大规模实验。

CAT - 创新图像恢复模型强化远程特征建模

图像修复Transformer自注意力机制长程依赖卷积神经网络Github开源项目

CAT是一种创新的图像恢复模型,采用矩形窗口自注意力机制扩大特征提取范围。模型通过水平和垂直矩形窗口并行聚合特征,实现窗口间交互。结合CNN的局部特性,CAT在全局-局部特征耦合方面表现出色。实验证实该方法在多种图像恢复任务中超越了现有技术水平。

uni2ts - 时间序列预测Transformer模型的统一训练框架

Uni2TS时间序列预测Transformer预训练模型PyTorchGithub开源项目

Uni2TS是一个基于PyTorch的开源库，专门用于时间序列Transformer的研究和应用。它提供了统一的大规模预训练解决方案，支持微调、推理和评估。该库集成了零样本预测、自定义数据集处理和全面评估功能，并提供简化的命令行界面。Uni2TS旨在推动时间序列预测领域的进展，适用于研究和实际应用场景。

PixArt-sigma - Diffusion Transformer模型实现4K文本到图像生成

PixArt-Σ文生图扩散模型Transformer4K图像生成Github开源项目

PixArt-Σ是一个基于Diffusion Transformer的文本到图像生成模型。通过Weak-to-Strong训练方法,该模型支持4K分辨率生成,采用300长度T5 token和SDXL VAE。相比前代PixArt-α,PixArt-Σ具有更强的生成能力。项目提供开源代码、多种分辨率预训练权重、diffusers库集成支持和在线演示。

MeMOTR - 基于长期记忆的Transformer多目标跟踪方法

MeMOTR多目标跟踪Transformer长期记忆计算机视觉Github开源项目

MeMOTR提出了一种基于Transformer的端到端多目标跟踪方法，通过长期记忆注入和定制记忆注意力层提升目标关联性能。该方法在DanceTrack和SportsMOT等数据集上展现出优秀的跟踪效果，为复杂场景的多目标跟踪提供了新思路。项目开源了代码、预训练模型和使用说明，便于研究者复现和改进。

MixFormerV2 - 高效全Transformer跟踪模型实现CPU实时运行

MixFormerV2目标跟踪Transformer模型蒸馏神经网络Github开源项目

MixFormerV2是一个统一的全Transformer跟踪模型，无需密集卷积操作和复杂评分预测模块。该模型提出四个关键预测token，有效捕捉目标模板与搜索区域的相关性。项目还引入新型蒸馏模型压缩方法，包括密集到稀疏和深层到浅层两个阶段。MixFormerV2在LaSOT和TNL2k等多个基准测试中表现优异，分别达到70.6%和57.4%的AUC，同时在GPU上保持165fps的推理速度。值得注意的是，MixFormerV2-S是首个在CPU上实现实时运行的基于Transformer的单流跟踪器。

HAT - 激活更多像素的图像超分辨率转换器

图像超分辨率HATTransformer深度学习计算机视觉Github开源项目

HAT是一个开源的图像超分辨率项目，采用混合注意力转换器架构。它在Set5、Urban100等数据集上达到了最先进水平，参数量为20.8M。HAT还提供了小型模型版本和用于真实世界超分辨率的GAN模型，能够处理各种图像重建任务。

ETSformer-pytorch - 基于PyTorch的先进时间序列Transformer模型

ETSformer时间序列预测PytorchTransformer指数平滑Github开源项目

ETSformer-pytorch是一个开源的时间序列分析工具，基于PyTorch实现了先进的Transformer模型。该项目集成了多头指数平滑注意力机制和频率选择功能，适用于时间序列预测和分类任务。ETSformer-pytorch提供简单的安装和使用方法，支持灵活的模型配置，并包含专门的分类包装器。这一工具为研究人员和开发者提供了处理复杂时间序列数据的有效解决方案。

LLM-Reading-List - 大语言模型技术与优化方法的综合阅读列表

LLMTransformer模型压缩深度学习自然语言处理Github开源项目

该项目收集了大语言模型(LLM)领域的重要论文,主要聚焦推理和模型压缩技术。涵盖Transformer架构、基础模型、位置编码等多个关键领域的研究成果。为LLM技术发展和优化方法的研究提供了全面的参考资料。

annotated_deep_learning_paper_implementations - 简洁易懂的PyTorch神经网络和算法实现

labml.aiPyTorchTransformerGANReinforcement LearningGithub开源项目

该项目提供详细文档和解释的简明PyTorch神经网络及算法实现，涵盖Transformer、GPT-NeoX、GAN、扩散模型等前沿领域，并每周更新新实现，帮助研究者和开发者高效理解深度学习算法。

Efficient-AI-Backbones: 华为诺亚方舟实验室开发的高效AI骨干网络

2024年08月30日

深度学习论文实现大全:annotated_deep_learning_paper_implementations项目解析

2024年08月30日

深度学习论文实现大全:annotated_deep_learning_paper_implementations项目解析

2024年08月30日

Trax: Google开源的深度学习库 - 清晰代码与高速性能的完美结合

AiLearning-Theory-Applying: 快速掌握AI理论与实战的开源学习项目

2024年08月30日

Transformers学习指南：从入门到精通

2024年08月30日

Microsoft/TrOCR-识别手写文字的利器，让AI在教育领域更进一步

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com