#transformer

LASER项目学习资料汇总 - 一种改进大语言模型推理能力的新方法

1 个月前

LASER(Layer-Selective Rank Reduction)是一种通过层选择性秩降低来改进大语言模型推理能力的新方法,无需额外训练即可显著提升问答任务性能。本文汇总了LASER项目的相关学习资料,帮助读者快速了解和上手这一创新技术。

Layer-Selective Rank Reduction LASER transformer 低秩近似大语言模型 Github 开源项目

1 个月前

Tuned-Lens:探索Transformer模型内部表征的强大工具

2 个月前

Tuned-Lens是一个创新的工具,通过在每一层上训练仿射变换来解码Transformer模型的隐藏状态,帮助研究人员深入理解模型预测是如何层层细化的。这一方法为分析大型语言模型的内部机制提供了新的视角。

Tuned Lens transformer 机器学习自然语言处理模型解释 Github 开源项目

2 个月前

k-diffusion: 强大的扩散模型框架

2 个月前

k-diffusion 是一个基于 PyTorch 实现的扩散模型框架,它包含了多项改进和新特性,如改进的采样算法和基于 Transformer 的扩散模型,为生成模型的研究和应用提供了强大的工具。

k-diffusion 生成模型 PyTorch transformer 注意力机制 Github 开源项目

2 个月前

Spreadsheet Is All You Need: 探索电子表格中的GPT模型

2 个月前

本文深入探讨了一个创新项目，该项目将GPT模型的全部推理流程打包到一个电子表格中。我们将详细介绍这个项目的背景、实现方法、功能特点以及对AI学习和研究的启示意义。

nanoGPT transformer 自注意力机制矩阵计算电子表格 Github 开源项目

2 个月前

MEMIT: 革新大规模语言模型的记忆编辑技术

2 个月前

MEMIT是一种新型的大规模语言模型记忆编辑方法,能够高效地在模型中插入、修改和删除大量事实知识,而不会影响模型的整体性能。本文详细介绍了MEMIT的工作原理、实现方法以及在实际应用中的表现。

MEMIT transformer 编辑记忆算法演示评估套件 Github 开源项目

2 个月前

x-transformers学习资料汇总 - 功能丰富的全注意力Transformer实现

1 个月前

x-transformers是一个简单但完整的全注意力Transformer实现,集成了多篇论文中的实验性特性。本文汇总了该项目的相关学习资源,帮助读者快速上手和深入了解这个强大的Transformer库。

x-transformers transformer 模型训练编解码器编码器 Github 开源项目

1 个月前

Tracr: 革命性的钻石溯源技术

2 个月前

Tracr是一个开创性的钻石溯源平台, 利用区块链技术记录钻石从源头到零售的全程journey, 为钻石行业带来前所未有的透明度和可追溯性。

Tracr RASP transformer 编译器解释性 Github 开源项目

2 个月前

MaskDINO: 一个统一的基于Transformer的目标检测和分割框架

2 个月前

MaskDINO是一个强大的计算机视觉模型，它在目标检测、全景分割、实例分割和语义分割等多个任务上都取得了最先进的性能。本文将深入介绍MaskDINO的架构、特点和应用。

Mask DINO 目标检测图像分割 transformer 深度学习 Github 开源项目

2 个月前

CogView: 开创文本到图像生成的新时代

2 个月前

CogView是由清华大学研发的一款强大的文本到图像生成模型,它采用40亿参数的Transformer架构,能够根据任意中文文本生成生动逼真的图像,在多项指标上达到了世界领先水平,开创了人工智能视觉创作的新纪元。

CogView ImageReward NeurIPS 2023 text-to-image transformer Github 开源项目

2 个月前

激光技术的原理与应用:从基础到前沿

2 个月前

本文深入探讨了激光技术的基本原理、发展历程和广泛应用,涵盖了激光的工作原理、类型、特性以及在科研、工业、医疗等领域的创新应用,同时介绍了Layer-Selective Rank Reduction等前沿研究方向,全面展现了激光技术的魅力与潜力。

Layer-Selective Rank Reduction LASER transformer 低秩近似大语言模型 Github 开源项目

2 个月前

相关项目

x-transformers

x-transformers提供了多功能的Transformer模型，支持完整的编解码器配置和最新研究成果，适合各种应用，从图像分类到语言模型。其先进技术如闪存注意力和持久内存，有助于提高模型的效率和性能。此项目是研究人员和开发者的理想选择，用于探索和优化机器学习任务中的Transformer技术。

laser

LASER技术通过选择性替换LLM权重矩阵的低秩近似值，在无需额外训练的情况下显著提升问答任务性能。本项目提供了多个LLM和基准支持的代码，并通过示例展示如何运行实验。最新更新包括结果表和讨论页面，2024年1月将进行代码重构，以提高灵活性和易用性。

memit

MEMIT项目专注于简化和优化Transformer模型中大量事实的编辑过程，提供了简单的API和详细的评估套件。用户可以通过示例代码、安装指南和脚本轻松开始并运行完整评估。项目不仅支持快速的大规模编辑，还提供了详细的结果存储和总结机制，适合需要动态更新模型记忆的研究人员和工程师。

open-muse

open-muse项目致力于重现Transformer MUSE模型，通过LAION-2B和COYO-700M数据集的训练，提供简单且可扩展的代码库。项目包括在Imagenet上训练类别条件模型、在CC12M上进行文本到图像实验，以及训练改进的VQGAN模型，所有结果将上传至Huggingface的openMUSE组织。支持的模型包括MaskGitTransformer和VQGAN，方便使用并可在Huggingface hub上加载和保存。

flow-forecast

Flow Forecast 是一个开源时间序列预测深度学习框架，提供最新的Transformer、注意力模型、GRU等技术，并具有易于理解的解释指标、云集成和模型服务功能。该框架是首个支持Transformer模型的时间序列框架，适用于流量预测、分类和异常检测。

former

详细介绍了如何使用PyTorch从零开始实现简单的Transformer模型，包含安装和使用指南，以及通过命令行控制超参数和数据自动下载的说明。

GNT

Generalizable NeRF Transformer (GNT) 是一个用于高效重建和渲染神经辐射场的纯Transformer架构。它通过视图Transformer和射线路径Transformer两个阶段完成场景表示和渲染。GNT在跨场景训练中展示了其在多个数据集上优异的性能和普遍适用性。

CogView

CogView是一个基于4B参数预训练的转换器，用于生成通用领域的文本到图像。最新版本CogView2显著提升了生成速度，并扩展支持英文输入。用户可以通过Github和Wudao平台体验并下载预训练模型。项目还包含超分辨率和图像到文本转换功能，并提供详细的设置和运行指南。该项目获得NeurIPS 2021认可，并推荐使用PB-relax和Sandwich-LN技术稳定训练大型转化器。

spreadsheet-is-all-you-need

这个项目将nanoGPT的完整推理流程实现在电子表格中，包括嵌入、层归一化和自注意力等Transformer核心组件。基于Andrej Karpathy的NanoGPT结构，该电子表格模型包含约85000个参数。通过直观展示Transformer的内部机制和数据流，并支持交互式操作，该项目为深入理解GPT工作原理提供了新颖的可视化方法。用户可以通过探索这个电子表格来更好地掌握Transformer架构的细节。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com