#矩阵乘法

MatMul-Free LLM入门学习资料 - 无矩阵乘法的革命性语言模型

1 个月前

Cover of MatMul-Free LLM入门学习资料 - 无矩阵乘法的革命性语言模型

MatMul-Free LLM是一种消除矩阵乘法运算的大规模语言模型架构,大幅降低计算成本。本文汇总了该项目的重要资源和入门指南,帮助读者快速了解这一前沿技术。

MatMul-Free LM Transformer++语言模型矩阵乘法深度学习 Github 开源项目

1 个月前

Cover of MatMul-Free LLM入门学习资料 - 无矩阵乘法的革命性语言模型

Effort: 从概念到应用的深度解析

2 个月前

Cover of Effort: 从概念到应用的深度解析

本文深入探讨了"effort"(努力)这一概念,从词源、定义到实际应用,全方位阐述了其在日常生活和专业领域中的重要性。同时介绍了一个创新的人工智能项目"Effort Engine",展示了"effort"概念在技术领域的前沿应用。

bucketMul算法 LLM模型推理计算效率优化矩阵乘法权重加载 Github 开源项目

2 个月前

Cover of Effort: 从概念到应用的深度解析

FBGEMM: Facebook开源的高性能低精度矩阵运算库

2 个月前

Cover of FBGEMM: Facebook开源的高性能低精度矩阵运算库

FBGEMM是Facebook开源的一款用于服务器端推理的低精度、高性能矩阵乘法和卷积库,为深度学习模型提供高效的量化推理支持。

FBGEMM 矩阵乘法低精度计算 PyTorch 服务器推理 Github 开源项目

2 个月前

Cover of FBGEMM: Facebook开源的高性能低精度矩阵运算库

MatMul-Free LLM：革新大型语言模型的计算方式

2 个月前

Cover of MatMul-Free LLM：革新大型语言模型的计算方式

MatMul-Free LLM是一种创新的大型语言模型架构，通过消除矩阵乘法运算，大幅降低了计算成本，同时保持了模型性能。本文深入探讨了这一突破性技术的原理、优势及其对AI领域的潜在影响。

MatMul-Free LM Transformer++语言模型矩阵乘法深度学习 Github 开源项目

2 个月前

Cover of MatMul-Free LLM：革新大型语言模型的计算方式

T-MAC: 为边缘设备打造的低比特LLM部署神器

2 个月前

Cover of T-MAC: 为边缘设备打造的低比特LLM部署神器

T-MAC是微软开发的一个创新性内核库,旨在通过查找表技术直接支持混合精度矩阵乘法,大幅提升低比特LLM在CPU上的推理性能。本文详细介绍了T-MAC的核心技术、性能优势及使用方法。

T-MAC 低比特量化 CPU加速 LLM推理矩阵乘法 Github 开源项目

2 个月前

Cover of T-MAC: 为边缘设备打造的低比特LLM部署神器

Effort: 高效灵活的LLM推理引擎

2 个月前

Cover of Effort: 高效灵活的LLM推理引擎

Effort是一个基于bucketMul算法的LLM推理引擎实现,可以实时动态调整推理计算量,在保持质量的同时显著提升速度。本文介绍了Effort的核心原理、主要特性和使用方法。

bucketMul算法 LLM模型推理计算效率优化矩阵乘法权重加载 Github 开源项目

2 个月前

Cover of Effort: 高效灵活的LLM推理引擎

CUDA-GEMM 优化技术：提升矩阵乘法性能的深度探索

2 个月前

Cover of CUDA-GEMM 优化技术：提升矩阵乘法性能的深度探索

本文深入探讨了CUDA-GEMM(通用矩阵乘法)的优化技术，从基础实现到高级优化策略，全面介绍了如何在NVIDIA GPU上实现高性能的矩阵乘法运算。文章涵盖了多种优化方法，包括内存访问优化、线程块优化、向量化等，并提供了详细的性能对比分析。

CUDA GEMM 矩阵乘法 GPU优化性能分析 Github 开源项目

2 个月前

Cover of CUDA-GEMM 优化技术：提升矩阵乘法性能的深度探索

相关项目

Project Cover

MatMul-Free LM是一种无需矩阵乘法操作的高效语言模型架构，兼容🤗 Transformers库，支持370M至2.7B参数的模型。该模型使用高效的三值权重，在计算效率和性能提升方面表现优异。安装需求包括PyTorch、Triton和einops。用户可以轻松初始化模型，并使用预训练模型进行文本生成，适用于各种高效语言建模应用场景。

Project Cover

CUDA-GEMM-Optimization

该项目展示了一系列针对通用矩阵乘法(GEMM)的CUDA内核优化实现。内容涵盖从基础到高度优化的多个GEMM内核版本,并提供了详细的性能分析。这些内核适用于任意矩阵大小,并针对NVIDIA GeForce RTX 3090 GPU进行了参数调优。项目包含Docker环境配置说明、编译运行指南,以及FP32和FP16 GEMM的性能对比,直观展示了不同优化技术对性能的影响。

Project Cover

FBGEMM是一个专注于服务器端推理的高性能低精度矩阵运算库。它提供小批量的高效低精度矩阵乘法，支持行级量化等技术以最小化精度损失，并通过操作融合解决低精度计算的挑战。作为PyTorch在x86平台上量化算子的后端，FBGEMM为深度学习推理提供了关键支持。

Project Cover

T-MAC是一个创新的内核库，采用查找表技术实现混合精度矩阵乘法，无需反量化即可加速CPU上的低比特LLM推理。该框架支持多种低比特模型，包括GPTQ/gguf的W4A16、BitDistiller/EfficientQAT的W2A16和BitNet的W1(.58)A8。T-MAC在多种设备上展现出显著性能提升，例如在Surface Laptop 7上，单核处理速度可达20 tokens/s，四核可达48 tokens/s，比llama.cpp快4~5倍。

Project Cover

Effort是bucketMul算法的开源实现，支持实时调整LLM模型推理过程中的计算量。在Apple Silicon芯片上，50%effort可匹配常规矩阵乘法速度，25%effort则提供双倍速度，同时保持大部分输出质量。项目支持跳过加载次要权重，实现性能与质量的灵活平衡。Effort Engine提供预编译二进制文件，源代码基于Swift和Metal开发。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号