#Transformer

llms - 大型语言模型的原理与实践应用全面解析
语言模型自然语言处理TransformerGPTBERTGithub开源项目
本项目全面介绍大型语言模型(LLMs)的基本概念、应用场景和技术演进。内容涵盖统计语言模型、神经网络语言模型,以及基于Transformer的预训练模型如GPT和BERT等。系统讲解LLMs核心原理,并探讨模型评估、文本生成和提示工程等实用技术。同时展示LLMs在计算机视觉等领域的创新应用,通过理论与实践结合,为读者提供深入了解LLMs技术的全面指南。
nanotron - 高效的大规模模型预训练库
Nanotron模型预训练深度学习并行计算TransformerGithub开源项目
Nanotron是一个开源的Transformer模型预训练库。它提供灵活API,支持自定义数据集预训练。该库特点包括高性能、可扩展性强,支持3D并行、专家并行、AFAB和1F1B调度策略、ZeRO-1优化器等先进技术。Nanotron适用于大规模模型训练,旨在提高预训练效率。
llm-paper-notes - 大语言模型论文笔记集锦 追踪AI研究前沿进展
大语言模型论文笔记自然语言处理人工智能TransformerGithub开源项目
该项目汇集了大语言模型领域的关键论文笔记。内容涵盖Transformer架构、注意力机制、预训练方法、缩放法则和检索增强生成等核心主题。通过精炼总结,为研究者和开发者提供LLM领域的核心概念和最新进展概览,便于快速了解AI前沿研究动态。
unitable - 整合表格识别任务的统一框架
UniTable表格识别自监督预训练Transformer表格结构Github开源项目
UniTable是一个创新的表格识别框架,统一了训练范式、目标和模型架构。它利用自监督预训练和语言建模,有效处理表格结构、单元格内容和边界框识别。该项目在四个大型数据集上展现最先进性能,并提供完整的推理流程Jupyter Notebook,支持多数据集微调和全面表格识别。
BioGPT - 预训练Transformer模型为生物医学文本提供强大工具
BioGPT自然语言处理生物医学文本预训练模型TransformerGithub开源项目
BioGPT是一个针对生物医学文本的预训练Transformer模型。该模型在关系提取、文档分类和问答等下游任务中表现优异。项目提供预训练模型和特定任务的微调模型,可通过多种渠道获取。BioGPT支持文本生成、特征提取等多种应用场景,为生物医学自然语言处理研究提供了实用工具。
xformers - Transformer 研究加速工具
xFormersTransformer注意力机制深度学习PyTorchGithub开源项目
xFormers 是一个加速 Transformer 研究的开源工具库。它提供可自定义的独立模块,无需样板代码即可使用。该项目包含前沿组件,专注于研究需求,同时注重效率。xFormers 的组件运行快速且内存利用率高,集成了自定义 CUDA 内核和其他相关库。它支持多种注意力机制、前馈网络和位置编码,适用于计算机视觉、自然语言处理等多个领域的研究工作。
MEGABYTE-pytorch - 多尺度Transformer模型实现百万字节序列预测
MEGABYTEPytorchTransformerAI模型深度学习Github开源项目
MEGABYTE-pytorch是一个基于PyTorch实现的多尺度Transformer模型,专门用于预测百万字节长度的序列。该项目具有灵活的配置选项,支持多个本地模型,并整合了Flash Attention等先进技术。MEGABYTE-pytorch通过简洁的API接口实现长序列处理、模型训练和文本生成。此外,项目提供了基于enwik8数据集的训练示例,为开发者提供了实用参考。
cookbook - EleutherAI深度学习实践指南与资源库
深度学习模型训练Transformer分布式训练EleutherAIGithub开源项目
EleutherAI的Cookbook项目是一个综合性深度学习资源库,涵盖从基础到高级的实用工具和知识。项目提供参数计算器、基准测试工具和精选阅读清单,内容包括transformer基础、分布式训练和最佳实践等主题。此外,还收录了多个简化版教学代码库,便于学习和理解。这个资源库适合各级深度学习从业者使用,有助于提升相关技能和知识。
landmark-attention - 突破性长序列处理技术的高效注意力机制
Landmark AttentionTransformerLLaMA语言模型深度学习Github开源项目
Landmark Attention项目提供了一种创新注意力机制的实现,可处理无限长度的上下文。该项目包含语言建模基准测试和LLaMA模型微调代码,以及与Flash Attention结合的Triton实现。通过在输入中添加特殊landmark标记,实现了对超长序列的随机访问,优化了Transformer模型的长文本处理能力,同时显著降低了内存使用并提高了性能。
Time-Series-Forecasting-and-Deep-Learning - 时间序列预测与深度学习研究资源集锦
时间序列预测深度学习神经网络MambaTransformerGithub开源项目
本项目汇总了时间序列预测和深度学习领域的研究论文、竞赛、数据集和代码等资源。内容涵盖2017年至2024年的研究成果,包括Transformer和Mamba等模型的创新应用。同时提供实例、博客和教程,为时间序列分析与预测研究提供全面参考。
ML-Papers-Explained - 机器学习论文关键概念解析与发展历程
语言模型自然语言处理深度学习TransformerGPTGithub开源项目
ML-Papers-Explained项目提供机器学习领域重要论文的详细解释。涵盖Transformer到GPT-4等多个里程碑语言模型,剖析论文核心思想、创新点和应用。项目帮助理解技术概念,展示机器学习发展历程,是跟踪AI进展的重要资源。
MP-Former - 基于mask-piloted机制的先进图像分割模型
MP-Former图像分割TransformerCVPR 2023Mask2FormerGithub开源项目
MP-Former是一种新型图像分割transformer模型,采用mask-piloted机制改进分割效果。项目包含训练和评估代码,适用于实例分割和全景分割任务。基于Mask2Former架构开发,在COCO数据集上展现出良好性能。项目提供了复现论文实验的脚本,为计算机视觉研究提供参考实现。MP-Former在CVPR 2023上发表,提供了no noise和all-layer MP训练设置,12轮训练后在实例分割任务上达到40.15 AP。项目代码开源,安装过程与Mask2Former相同,便于研究者快速上手和进行进一步探索。
TriplaneGaussian - 基于Triplane和高斯散射的快速单视图3D重建技术
3D重建TriplaneGaussian单视图Transformer高速重建Github开源项目
TriplaneGaussian是一种结合Triplane和高斯散射的3D重建技术。该方法采用混合Triplane-Gaussian 3D表示,融合显式和隐式表示优点,能在几秒内从单一视角图像生成高质量3D模型。这种技术不仅适用于合成图像,还能处理真实世界照片,展现了较强的泛化能力。TriplaneGaussian通过创新的表示方法实现了高效且通用的3D重建,为单视图3D重建领域提供了新的解决思路。
transformer_latent_diffusion - 基于 PyTorch 的 Transformer 潜在扩散文本生图模型
TransformerLatent DiffusionPyTorchAI绘图图像生成Github开源项目
Transformer Latent Diffusion 是一个基于 PyTorch 的开源项目,实现了文本到图像的潜在扩散模型。该模型体积小、生成速度快、性能合理,可在单 GPU 上快速训练。项目代码简洁,依赖少,注重数据质量。它提供数据处理工具,支持自定义训练,并进行了多项性能优化。项目展示了 256 分辨率随机样本和 CLIP 插值等生成示例。
iris - 基于Transformer的高效样本世界模型
IRIS世界模型Transformer自动编码器强化学习Github开源项目
IRIS是一种基于Transformer的世界模型,通过离散自编码器和自回归Transformer将动态学习转化为序列建模问题。该模型在世界模型中训练数百万个想象轨迹,实现了高效的数据利用。IRIS仅需两小时实时经验就能在多个Atari游戏中表现出色,展现了优秀的样本效率和泛化能力。
awesome-time-series - 时间序列预测与分析的全面资源汇总
时间序列预测深度学习Transformer图神经网络异常检测Github开源项目
本项目汇集了时间序列预测领域的最新论文、代码和相关资源。内容涵盖M4竞赛、Kaggle时间序列竞赛、学术研究、理论基础、实践工具和数据集等。为研究人员和从业者提供全面的参考资料,促进时间序列预测技术的深入研究与应用。
Large-Time-Series-Model - 大规模生成式预训练时间序列模型
Timer时间序列模型预训练Transformer大规模数据集Github开源项目
Timer是一款基于生成式预训练Transformer的大规模时间序列模型。该模型在包含10亿时间点的UTSD数据集上预训练,可用于预测、插值和异常检测等多项任务。Timer采用解码器架构,支持灵活序列长度,在少样本场景下表现优异。项目开源了模型代码、数据集和预训练权重,为时间序列大模型研究奠定基础。
SpA-Former-shadow-removal - Transformer模型实现高效图像去阴影
SpA-Former图像阴影去除TransformerIJCNN 2023注意力机制Github开源项目
SpA-Former是一种基于Transformer的图像去阴影模型,采用空间注意力机制提取阴影特征。在ISTD数据集上,该模型在PSNR、SSIM和RMSE指标方面表现出色。SpA-Former具有参数量少、计算效率高的特点,适用于实际场景的阴影去除。该研究已在IJCNN 2023会议发表,并开源了预训练模型和测试结果,便于研究者复现和对比。
UCTransNet - 融合U-Net与Transformer的医学图像分割网络
UCTransNet医学图像分割深度学习U-NetTransformerGithub开源项目
UCTransNet是一种结合U-Net和Transformer优势的医学图像分割网络。它通过Channel Transformer模块替代U-Net的跳跃连接,从通道维度优化特征融合。该模型在GlaS和MoNuSeg等数据集上表现优异,为医学影像分析提供新思路。项目开源代码实现和预训练模型,并提供详细使用说明,方便研究者探索和应用。
Multi-Task-Transformer - 场景理解多任务变压器模型 TaskPrompter和InvPT
多任务学习场景理解Transformer计算机视觉深度学习Github开源项目
Multi-Task-Transformer项目提供两种场景理解多任务变压器模型:TaskPrompter和InvPT。TaskPrompter利用空间-通道多任务提示进行密集场景理解,InvPT采用倒金字塔架构。这些模型在单目深度估计和3D目标检测等任务中表现出色,并在ICLR2023和ECCV2022会议上发表。项目开源代码和预训练模型,支持多种计算机视觉应用。
SOFT - 无需softmax的线性复杂度Transformer模型
Transformer自注意力机制线性复杂度图像分类目标检测Github开源项目
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
transfomers-silicon-research - Transformer模型硬件实现研究进展
TransformerBERT自然语言处理硬件加速神经网络Github开源项目
本项目汇集了Transformer模型硬件实现的研究资料,包括BERT及其优化方案。内容涵盖算法-硬件协同设计、神经网络加速器、量化和剪枝等技术。项目提供了详细的论文列表,涉及FPGA实现、功耗优化等多个领域,全面展示了Transformer硬件加速的最新研究进展。
RUL - Transformer和AttMoE网络在锂电池剩余寿命预测中的应用
锂电池寿命预测TransformerAttMoE机器学习数据集Github开源项目
本项目探索了Transformer和AttMoE网络在锂电池剩余寿命预测领域的应用。研究基于NASA和CALCE数据集进行实验,展示了详细的实验结果和模型架构。项目分析了dropout和noise_level参数对模型性能的影响,并提出了优化建议。代码采用PyTorch实现,并提供了相关学术文献引用。此外,项目还整理了多个锂电池寿命预测研究的相关资源,为该领域的研究人员提供了comprehensive参考。项目内容包括模型图示、实验结果可视化以及代码包依赖说明。研究者可以通过提供的邮箱地址与作者进行进一步交流。项目持续更新,最新增加了AttMoE相关内容和预测图表。
transformer-models - MATLAB深度学习变换器模型实现库
TransformerBERTMATLAB深度学习自然语言处理Github开源项目
该项目提供MATLAB环境下的多种深度学习变换器模型实现,包括BERT、FinBERT和GPT-2。支持文本分类、情感分析、掩码标记预测和文本摘要等自然语言处理任务。项目特点包括预训练模型加载、模型微调、详细示例和灵活API,可用于研究和实际应用。
a-PyTorch-Tutorial-to-Transformers - PyTorch实现Transformer模型的详细教程与实践指南
PyTorchTransformer机器翻译注意力机制编码器-解码器架构Github开源项目
本项目提供了一个基于PyTorch的Transformer模型实现教程。教程深入讲解了Transformer的核心概念,如多头注意力机制和编码器-解码器架构,并以机器翻译为例展示应用。内容涵盖模型实现、训练、推理和评估等环节,适合想要深入理解和应用Transformer技术的学习者。
awesome-transformers-in-medical-imaging - Transformer在医学影像分析中的最新应用进展
医学图像分析Transformer分割深度学习计算机视觉Github开源项目
本项目汇总了Transformer在医学影像分析领域的最新研究成果,包括图像分割、分类、重建等多个任务。资源库按时间顺序整理相关论文和开源实现,为研究人员提供全面参考。内容定期更新,旨在促进Transformer在医学影像分析中的应用与发展。
AvatarPoser - 革新全身姿态跟踪 仅需头手运动数据
AvatarPoser全身姿势跟踪混合现实TransformerAMASS数据集Github开源项目
AvatarPoser是一项突破性的全身姿态预测技术,仅需头部和手部运动数据即可在世界坐标系中准确估计全身姿态。该方法结合Transformer编码器和运动解耦技术,通过逆运动学优化生成逼真动作。AvatarPoser在大型动作捕捉数据集上表现出色,并具备实时推理能力,为元宇宙应用中的全身虚拟形象控制提供了实用解决方案。
Transformer_Tracking - 视觉追踪中Transformer应用的全面综述和前沿动态
Transformer视觉跟踪目标检测计算机视觉深度学习Github开源项目
本项目汇总了Transformer在视觉追踪领域的应用进展,包括统一追踪、单目标追踪和3D单目标追踪等方向。内容涵盖最新研究论文、技术趋势分析、基准测试结果以及学习资源,为相关研究人员和从业者提供全面的参考信息。重点关注自回归时序建模、联合特征提取与交互等前沿技术,展现了视觉追踪的最新发展动态。
h-transformer-1d - 高效序列学习的分层注意力变换器实现
H-Transformer-1DTransformer序列学习长程注意力神经网络Github开源项目
H-Transformer-1D是一个开源项目,实现了基于分层注意力机制的Transformer模型。这种实现使序列学习达到亚二次方复杂度,在Long Range Arena基准测试中表现优异。项目支持可变序列长度、可逆性和令牌移位等功能,适用于长序列数据处理。该实现主要提供编码器(非自回归)版本,为自然语言处理和机器学习领域提供了新的研究方向。
multispectral-object-detection - 多光谱图像融合的高效目标检测方法
多光谱目标检测Transformer跨模态融合YOLOv5计算机视觉Github开源项目
该项目提出了Cross-Modality Fusion Transformer (CFT)多光谱目标检测方法,利用Transformer架构融合RGB和热红外图像信息。CFT在FLIR、LLVIP等数据集上取得了优秀的检测结果,尤其在夜间场景表现突出。这为多光谱目标检测提供了一种新的解决方案。
LLFormer - 高效处理超高清低光照图像的Transformer模型
图像增强低光照超高清TransformerAAAIGithub开源项目
LLFormer是一种新型Transformer模型,专门用于增强超高清低光照图像。通过创新的轴向多头自注意力和跨层注意力融合机制,LLFormer能高效处理4K和8K分辨率图像。在UHDLOL基准测试中,该模型性能显著优于现有方法。LLFormer不仅提升了图像质量,还能改善低光照条件下人脸检测等下游任务的效果。
GameFormer - 结合游戏理论的自动驾驶交互预测规划模型
GameFormer自动驾驶交互预测规划TransformerGithub开源项目
GameFormer是一个创新的自动驾驶AI项目,结合游戏理论和Transformer架构进行交互式预测和规划。项目提供Waymo开放运动数据集上的交互预测联合模型代码,以及动态场景的开环规划实现。GameFormer提高了预测准确性和自动驾驶系统的决策能力,为智能交通系统研究开辟新方向。
Crossformer - 高效利用跨维度依赖的多变量时间序列预测模型
Crossformer时间序列预测注意力机制深度学习TransformerGithub开源项目
Crossformer是一种新型Transformer模型,针对多变量时间序列预测设计。该模型采用维度分段嵌入、两阶段注意力机制和层次编码器-解码器结构,有效捕捉时间和维度间的依赖关系。Crossformer在多个基准数据集上表现优异,为长序列预测和高维数据处理提供新思路。其开源实现便于研究人员和实践者探索应用。
DECIMER-Image_Transformer - 化学结构图像识别的深度学习新方法
DECIMER化学图像识别深度学习TransformerSMILESGithub开源项目
DECIMER-Image_Transformer项目结合EfficientNet V2和Transformer模型,开发了用于化学结构图像识别的先进深度学习方法。该项目优化了数据处理流程,采用TPU加速训练,提高了SMILES预测效率。这一创新为化学文献的自动化分析和结构识别提供了新的研究方向,推动了化学信息学领域的发展。
Awesome-Quantization-Papers - 深度学习模型量化研究论文综合列表
模型量化深度学习神经网络Transformer低比特量化Github开源项目
Awesome-Quantization-Papers是一个全面的深度学习模型量化研究论文列表,涵盖AI会议、期刊和arXiv上的最新成果。项目根据模型结构和应用场景进行分类,重点关注Transformer和CNN在视觉、语言处理等领域的量化方法。通过定期更新,为研究人员提供模型量化领域的最新进展。
simple-hierarchical-transformer - 分层Transformer模型探索多层次预测编码
Transformer深度学习神经网络自然语言处理注意力机制Github开源项目
这个项目提出了一种在GPT模型中实现多层次预测编码的方法。它通过在Transformer中引入多层结构,结合局部注意力和全局信息传递。实验结果显示,该方法在维持性能的同时提升了效率。项目允许自定义层次结构、维度和注意力窗口大小,为研究人员提供了探索分层Transformer的实验工具。项目代码支持灵活配置,包括调整层次数量、模型维度和注意力窗口大小。这种设计使研究人员能够方便地进行不同参数的对比实验,有助于深入理解分层Transformer的性能特点。