#Transformer

trax - 代码清晰、高速执行的深度学习库
Trax深度学习TransformerReformerGoogle BrainGithub开源项目
Trax是一个由Google Brain团队维护的端到端深度学习库,专注于清晰代码和高速执行。它提供预训练的Transformer模型和丰富的API文档,支持用户创建和训练自定义模型,并与TensorFlow数据集无缝集成。Trax兼容CPUs、GPUs和TPUs,用户可以通过Python脚本、notebooks和命令行界面轻松使用。
Efficient-AI-Backbones - 领先的人工智能模型与技术 - Huawei Noah's Ark Lab 研发
AI模型Transformer华为机器学习NeurIPSGithub开源项目热门
Efficient-AI-Backbones 项目涵盖了由华为诺亚方舟实验室研发的一系列先进的人工智能模型,包括 GhostNet, TNT, AugViT, WaveMLP, 和 ViG 等。这些模型通过创新的结构设计和优化,有效提升了计算效率和性能,广泛应用于各种智能处理任务。最新发布的 ParameterNet 在 CVPR 2024 会议上被接受,展现了华为在人工智能技术领域的持续领先。
llm_interview_note - 大模型面试知识与实用资源汇总
LLM大语言模型Transformer分布式训练微调Github开源项目
本仓库汇集了大语言模型(LLMs)的面试知识和实用资源,适合准备大模型面试的求职者。内容涵盖大模型基础、架构、训练数据、分布式训练、推理优化、强化学习、RAG技术、模型评估及应用案例。提供详细的知识点解析和操作指南,并附有项目示例和在线体验链接。定期更新,确保内容时效性和实用性。欢迎访问在线阅读页面,关注微信公众号获取更多相关信息。
RWKV-LM - 高性能并行化RNN,探索和应用RWKV模型
RWKVRNNTransformer性能并行化Github开源项目
RWKV是一个高性能的并行化RNN,具有变换器级别的性能。该模型实现了快速的推理和训练速度,不依赖于传统的注意力机制,而是通过隐藏状态进行计算,优化了VRAM的使用,并支持处理无限长度的文本上下文。RWKV的这些特点使其在进行句子嵌入和处理复杂文本任务时显示出优越的能力。
AiLearning-Theory-Applying - 人工智能领域的全面学习资源
机器学习深度学习自然语言处理AiLearning-Theory-ApplyingTransformerGithub开源项目
AiLearning-Theory-Applying项目提供人工智能领域的全面学习资源,覆盖基础知识、机器学习、深度学习及自然语言处理。项目持续更新,附带详尽注释和数据集,便于理解与操作,助力初学者及研究人员迅速掌握AI理论及应用实践。
Transformers-Recipe - 学习与应用Transformer的指南
TransformerNLP计算机视觉强化学习AttentionGithub开源项目
该指南为自然语言处理(NLP)及其他领域的学习者提供了丰富的Transformer学习资源,包括基础介绍、技术解析、实际实现和应用。通过精选的文章、视频和代码示例,帮助用户深入掌握Transformer模型的理论与实践。
Awesome-Transformer-Attention - 视觉变换器与注意力机制的最新研究进展
Vision Transformer深度学习多模态学习Transformer注意力机制Github开源项目
探索视觉变换器和注意力机制的最新发展,包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用,发现创新思路。
REaLTabFormer - 一套用于表格和关系合成数据生成的自回归和 Seq2Seq(序列到序列)转换器模型
REaLTabFormerTransformersynthetic datatabular dataGPT-2Github开源项目
REaLTabFormer使用Seq2Seq模型生成关系数据集,针对非关系数据采用GPT-2模型,直接建模任意独立观察的表格数据。通过生成父表和关系表,利用目标掩码和统计方法避免过拟合。实验结果表明其在捕捉关系结构方面优于基准模型,并在大型非关系数据集上实现了先进的预测效果。REaLTabFormer易于安装和使用,并提供样本验证器以提高生成数据的有效性和准确性。
Awesome-MIM - 掩码图像建模在自监督表示学习中的应用与发展
Masked Image Modeling自监督学习计算机视觉Transformer深度学习Github开源项目
该项目汇总了掩码图像建模(MIM)及相关的自监督学习方法。涵盖了从2008年以来的主要自监督学习研究,并展示了其在自然语言处理和计算机视觉领域的发展历程和关键节点。所有内容按时间顺序排列并定期更新,包括相关论文、代码和框架的详细信息,旨在帮助研究者深入理解和应用MIM方法。欢迎贡献相关文献或修正建议。
llm-resource - 大模型资源汇总及实用技术详解
LLMTransformerGPT-2ChatGPTMOEGithub开源项目
LLM百宝箱是大模型相关资源的综合汇总,包括算法、训练、推理、数据工程、压缩和测评等方面。用户可以通过目录和链接快速找到相关内容,如Transformer和GPT模型的原理和源码解析,以及混合专家模型(MoE)等前沿技术。此外,还提供了LLM微调、对齐和推理优化的实现方案和技巧,帮助开发者和研究者深入掌握并应用大模型技术。
mint - 从零构建Transformer模型的详细教程和实现
MinTTransformerBERTPyTorchHuggingFaceGithub开源项目
该项目提供了一系列循序渐进的教程,指导从零开始构建常见的Transformer模型,如BERT、GPT、GPT2、BART和T5。教程不仅讲解基本架构的实现,还包括预训练和微调示例,并提供小型PyTorch库以便额外使用。项目依赖HuggingFace的tokenizers库进行子词标记,适用于不同规模数据集的训练需求,还涵盖了多工作节点的分布式训练示例,非常适合希望深入了解Transformer模型原理和应用的学习者。
Awesome-LLM-Large-Language-Models-Notes - 大型语言模型的发展历程及关键技术解析
LLMTransformerGPTBERTchatGPTGithub开源项目
本页面介绍了多个知名的大型语言模型(LLM)的发展历史,包括其发布年份、相关论文、核心功能和代码实现。从Transformer、GPT系列到最新的GPT-4和Claude,全面汇总了每个模型的关键信息及技术亮点,并提供了相关链接供深入了解。对于自然语言处理(NLP)领域的研究者、开发者和爱好者,这些信息具有重要的参考价值。
TransformerHub - 实现与参考多种Transformer模型
TransformerHubTransformerGPTBERTViTGithub开源项目
此项目实现了多种Transformer架构,包括seq2seq、仅编码器、仅解码器和统一模型,旨在提高编程技能并提供深度学习参考。特色包括多种Attention模块、位置嵌入和采样方法,当前进展是实现DINO模型。项目受到多个开源项目的启发和支持。
commented-transformers - 精细注释的Transformer在PyTorch中的实现
TransformerPyTorchAttention机制GPT-2BERTGithub开源项目
详细注释的Transformer实现,涵盖从头创建Transformer系列,包括注意力机制和整体Transformer的实现。提供双向注意力、因果注意力及因果交叉注意力的实现,以及GPT-2和BERT模型的单文件实现,兼容torch.compile(..., fullgraph=True)以提高性能。
attention-viz - 帮助理解Transformer模型在语言和视觉任务中的自注意力机制
attention-vizTransformer深度学习可视化自然语言处理Github开源项目
此项目通过可视化技术帮助研究人员理解Transformer模型在语言和视觉任务中的自注意力机制,展示查询与关键向量的关系和整体模式。AttentionViz提供了交互式工具,支持多输入序列分析,提升了模型理解,并在多个应用场景中展现其实用性。
LongRoPE - 扩展大语言模型上下文窗口至200万以上标记的方法
LongRoPE大语言模型上下文窗口位置编码TransformerGithub开源项目
LongRoPE项目提出了一种将大语言模型(LLM)上下文窗口扩展至超过200万个标记的方法。通过利用位置嵌入中的非均匀性,项目实现了8倍的上下文窗口扩展,无需微调。采用逐步扩展策略从256k微调至2048k上下文,避免了对超长文本的直接微调。LongRoPE还调整了原始窗口长度内的嵌入,确保在各种任务中保持高效表现,适用于对话、问答、长文档摘要及少样本学习。
Jamba - 支持多层次深度学习的PyTorch语言模型
JambaPyTorch神经网络语言模型TransformerGithub开源项目
Jamba是一个基于PyTorch的混合语言模型,结合了Transformer和Mamba架构。通过简单的pip命令(`pip install jamba`),用户可以迅速安装并使用该模型。Jamba支持多种深度学习配置,包括输入数据维度、模型层数、唯一标记数、隐藏状态维度、卷积层维度、注意力头数量和专家网络配置,适用于各种自然语言处理任务。
Paper-Reading-ConvAI - 对话系统与自然语言生成研究的全面综述
Conversational AIDialogue SystemsNatural Language GenerationDeep LearningTransformerGithub开源项目
项目提供了对话系统和自然语言生成领域的最新研究文献,覆盖深度学习、多模态对话、个性化对话、情感对话、任务导向对话和开放域对话等主题。同时,详细总结了自然语言生成的理论与技术、可控生成、文本规划及解码策略,旨在协助研究人员高效掌握相关技术和方法。
Deep-Learning-Experiments - 深度学习实验和课程指南,涵盖理论与实践
Deep LearningLLMSupervised LearningPyTorchTransformerGithub开源项目
本页面介绍2023版深度学习实验课程,包括理论与实践内容。涵盖监督学习、多层感知器、优化、正则化、卷积神经网络、变压器、自编码器、生成对抗网络和大型语言模型等主题,并提供开发环境、Python、Numpy、PyTorch及Gradio的实践指南。所有文档和代码示例在GitHub上提供,帮助学习者掌握深度学习技术。
BertWithPretrained - 基于PyTorch实现的BERT模型及相关下游任务
BERTPyTorchTransformer中文文本分类英文文本分类Github开源项目
该项目基于PyTorch实现了BERT模型及其相关下游任务,详细解释了BERT模型和每个任务的原理。项目支持分类、翻译、成对句子分类、多项选择、问答和命名实体识别等任务,涵盖中文和英语的自然语言处理。此外,项目还含有丰富的数据集和预训练模型配置文件。
trankit - 轻量级的多语言自然语言处理Python工具包,支持多个语言的预训练模型
Trankit多语言NLP工具TransformerPythonGithub开源项目
Trankit是一个基于Transformer架构的轻量级Python工具包,支持多语言自然语言处理,包含针对56种语言的90个预训练流水线。它引入了自动模式,多语言输入可自动检测。Trankit在多个自然语言处理任务上表现优异,超过Stanza等主流工具包,并保持高效的内存使用和处理速度。用户无需编程经验即可通过简便的命令行界面使用,还可定制流水线。
Recurrent-LLM - RecurrentGPT 模拟 LSTM 实现无长度限制文本生成
Recurrent-LLMRecurrentGPTAI As ContentsTransformer长短时记忆Github开源项目
RecurrentGPT 模拟 LSTM 的长短时记忆机制,解决了 GPT 生成文本长度受限的问题。每次生成时段文本并更新记忆,便于用户观测和修改。这提高了文本生成的可解释性和互动性,并展示了其在互动小说和个性化内容创作中的潜力。RecurrentGPT 运用了认知科学和深度学习的流行设计概念,推动了下一代计算机辅助写作系统的发展。
adapters - 参数高效与模块化迁移学习的统一库
AdaptersHuggingFaceTransfer LearningPyTorchTransformerGithub开源项目
提供一个兼容HuggingFace Transformers的附加库,整合超过10种Adapter方法和超过20种先进Transformer模型,简化训练和推理的编程工作量。支持高精度与量化训练、任务算术合并适配器以及多适配器组合等功能,适用于NLP任务的参数高效传输学习。
bertviz - 利用BERT、GPT2等模型进行注意力机制可视化
BertVizTransformerHuggingfaceself-attentionJupyter NotebookGithub开源项目
BertViz是一个交互式工具,可视化BERT、GPT2、T5等Transformer模型的注意力机制。支持在Jupyter和Colab中运行,提供head view、model view、neuron view三种独特视角。通过简便的Python API调用,大多数Huggingface模型均兼容。通过Colab教程,可快速尝试这些可视化功能。
awesome-DeepLearning - 提供深度学习课程、书籍、案例和面试指南
飞桨深度学习AI Studio零基础实践深度学习TransformerGithub开源项目
飞桨官方出品,提供一站式深度学习学习资源,包括基础实践课程、深度学习书籍、百问专题和产业应用案例等。涵盖从基础到进阶的学习资料,适合高校和企业应用。项目内容实时更新,帮助开发者掌握最新深度学习技术,提升专业能力。
pysentimiento - 社交NLP任务的高级Python工具包
pysentimiento情感分析NLP任务Transformer预处理Github开源项目
pysentimiento是一个Python工具包,专为情感分析和社交NLP任务设计。它支持多种语言,包括西班牙语、英语、意大利语和葡萄牙语,可以进行情感分析、仇恨言论检测、讽刺检测及情感分析等。使用简单,只需通过pip安装并调用预设模型即可。适用于研究者和开发者的强大开源工具。
ai-reference-models - 提供在Intel硬件上运行的优化深度学习模型资源
Intel AI Reference Models深度学习优化TransformerIntel Xeon ScalableGithub开源项目
该存储库含有预训练模型、示例脚本、最佳实践和详细教程,针对优化机器学习模型在Intel® Xeon® 可扩展处理器和Intel® 数据中心GPU上的表现。文档涵盖了使用TensorFlow和PyTorch进行推理与训练的详细步骤,并提供了针对Sapphire Rapids和Intel® Data Center GPU Flex及Max系列的性能优化指南,展示了在最佳硬件配置下的AI性能。
Transformer-in-Computer-Vision - Transformer在计算机视觉中的最新研究汇总
Transformer计算机视觉最新论文深度学习视觉算法Github开源项目
项目汇总了最新的基于Transformer的计算机视觉研究论文,涵盖了视频处理、图像分类、目标检测和异常检测等广泛应用场景。用户可点击链接查看具体类别的论文和代码。若发现遗漏研究,欢迎提交问题或请求。最新版本更新于2024年8月8日,为科研人员与开发者提供丰富资源。
awesome-transformer-nlp - 精选Transformer和迁移学习在自然语言处理的资源
GPTBERTTransformerNLPChatGPTGithub开源项目
该资源库汇集了关于自然语言处理 (NLP) 的顶级深度学习资料,重点包括生成预训练Transformer(GPT)、双向编码器表示(BERT)、注意力机制、Transformer架构、ChatGPT及其在NLP中的迁移学习应用。包含大量研究论文、文章、教程及工具,为研究人员和开发人员提供最新的Transformer技术与应用。此系列资源帮助了解和掌握最新的NLP模型及实现方法,提高自然语言处理任务的性能与效率。
conformer - 结合卷积神经网络和Transformers的语音识别模型
ConformerPyTorch卷积神经网络Transformer语音识别Github开源项目
Conformer模型结合卷积神经网络和Transformers,能同时捕捉音频的局部和全局依赖关系,提高语音识别精度并节省参数。本项目提供该模型的PyTorch实现,包含详细的安装和使用指南,适用于Python 3.7及更高版本。
poolformer - 视觉任务中MetaFormer架构的应用及其效能
MetaFormerPoolFormerTransformer图像分类CVPR 2022Github开源项目
该项目展示了MetaFormer架构在视觉任务中的应用,特别通过简单的池化操作实现token混合。研究证实,基于这种方法的PoolFormer模型在ImageNet-1K验证集上表现优于DeiT和ResMLP。此外,后续工作介绍了IdentityFormer、RandFormer等MetaFormer基线模型。本项目证明了Transformer模型的竞争力主要来源于其通用架构MetaFormer,而非特定的token混合器。
Restormer - 高效Restormer Transformer实现高分辨率图像修复
Restormer高分辨率图像恢复Transformer图像去雨图像去噪Github开源项目
研究提出了一种名为Restormer的高效Transformer模型,通过多头注意力和前馈网络设计,实现了长距离像素交互,适用于大图像处理。该模型在图像去雨、单图像运动去模糊、散焦去模糊(单图像和双像素数据)和高斯及真实图像去噪等任务中表现优异。Restormer的训练代码和预训练模型已发布,并被选为CVPR 2022的口头报告。用户可通过Colab或命令行测试预训练模型。
tr - 高效的离线OCR文本识别与文档理解SDK
trOCRCRNNTransformer多模态大模型Github开源项目
tr是一款离线OCR文本识别SDK,核心采用C++开发并提供Python接口,支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder,提供高效且资源占用低的OCR解决方案,适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能,并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引,及详细的示例代码便于快速部署和测试。
SwissArmyTransformer - 瑞士军刀式Transformer库,用于多样化模型的开发与优化
satTransformerDeepSpeedGLMBERTGithub开源项目
SwissArmyTransformer是一个灵活且强大的库,用于开发和优化各种Transformer变体模型,如BERT、GPT、T5等。该库通过轻量级混合组件支持多种用途,并结合DeepSpeed-ZeRO和模型并行技术,提供了大规模模型预训练和微调的最佳实践。只需几行代码即可实现前缀调优和缓存自动回归模型,适用于大规模分布式训练和高效推理。
LongNet - 扩展Transformer到10亿标记的创新变体
LongNetTransformerDilated Attention长序列建模机器学习Github开源项目
LongNet是一个创新的Transformer变体,通过膨胀注意力机制扩展序列长度至超过10亿标记,同时保持对较短序列的高性能。该模型具有线性计算复杂度,适用于极长序列的分布式训练,并且其膨胀注意力可以无缝替代标准注意力。实验结果证明,LongNet在长序列建模和一般语言任务上表现出色,为处理整个语料库或互联网序列开辟了新路径。
annotated_deep_learning_paper_implementations - 简洁易懂的PyTorch神经网络和算法实现
labml.aiPyTorchTransformerGANReinforcement LearningGithub开源项目
该项目提供详细文档和解释的简明PyTorch神经网络及算法实现,涵盖Transformer、GPT-NeoX、GAN、扩散模型等前沿领域,并每周更新新实现,帮助研究者和开发者高效理解深度学习算法。