#模型量化

HQQ量化学习资料汇总 - 快速准确的大模型量化工具

1 个月前

本文汇总了HQQ (Half-Quadratic Quantization) 量化方法的相关学习资源,包括官方文档、代码仓库、使用教程等,帮助读者快速上手这一高效的模型量化技术。

HQQ 模型量化 torch.compile CUDA 8,4,3,2,1 bits Github 开源项目

1 个月前

LLaMA-Factory学习资料汇总 - 高效微调100+大语言模型的开源工具

1 个月前

LLaMA-Factory是一个强大的开源工具,可以高效地微调100多种大语言模型。本文汇总了LLaMA-Factory的重要学习资源,帮助读者快速入门并掌握这一实用工具。

LLaMA Factory 大语言模型快速微调模型量化性能优化 Github 开源项目热门

1 个月前

量化技术在深度学习中的应用与发展:Awesome-Quantization-Papers项目解析

2 个月前

本文深入解读了Awesome-Quantization-Papers项目,全面介绍了深度学习中量化技术的最新进展。文章详细阐述了量化技术在Transformer模型、卷积神经网络等领域的应用,并对未来发展趋势进行了展望。

模型量化深度学习神经网络 Transformer 低比特量化 Github 开源项目

2 个月前

CodeFuse-DevOps-Model: 赋能DevOps全生命周期的开源中文大模型

2 个月前

CodeFuse-DevOps-Model是一系列业界首个开源的中文开发运维大模型,致力于在DevOps领域发挥实际价值,帮助工程师解决DevOps生命周期中遇到的各种问题。

DevOps-Model 中文开发运维大模型模型评测模型训练模型量化 Github 开源项目

2 个月前

mlc-MiniCPM:在Android设备上运行的轻量级大语言模型

2 个月前

mlc-MiniCPM是一个基于MLC-LLM的项目,旨在将MiniCPM和MiniCPM-V这两个轻量级大语言模型部署到Android设备上。本文详细介绍了该项目的背景、功能特点、使用方法以及技术实现细节。

MiniCPM Android MLC-LLM 模型量化移动端部署 Github 开源项目

2 个月前

mistral.rs入门指南 - 快速高效的LLM推理平台

1 个月前

mistral.rs是一个高性能的LLM推理平台,支持多种设备、量化和易用的API。本文介绍其主要特性和使用方法,帮助您快速上手这个强大的工具。

mistral.rs LLM推理模型量化 Python API HTTP服务器 Github 开源项目

1 个月前

nncase: 为人工智能加速器打造的神经网络编译器

2 个月前

nncase是一款专为AI加速器设计的神经网络编译器,支持多种深度学习框架,提供高效的模型量化和优化功能,助力边缘AI应用开发。

nncase AI加速器神经网络编译器 K230 模型量化 Github 开源项目

2 个月前

嵌入式系统中的神经网络技术发展与应用

2 个月前

本文全面介绍了嵌入式神经网络的最新研究进展,包括网络压缩、硬件加速器等关键技术,以及在移动设备等领域的广泛应用前景。

神经网络压缩硬件加速器模型量化稀疏化剪枝 Github 开源项目

2 个月前

MiniCPM: 突破性的端侧大语言模型

2 个月前

MiniCPM是由面壁智能与清华大学自然语言处理实验室共同开发的端侧大语言模型系列,以小巧的参数量实现了出色的性能,为大语言模型的端侧部署开辟了新的可能。

MiniCPM 端侧大语言模型开源模型多模态模型量化 Github 开源项目

2 个月前

AWQ: 提升大语言模型推理效率的激活感知权重量化技术

2 个月前

AWQ (Activation-aware Weight Quantization) 是一种新型的权重量化方法,通过考虑激活值分布来实现大语言模型的高效压缩和加速。本文将详细介绍 AWQ 的原理、优势及其在各类大语言模型上的应用效果。

AWQ LLM 模型量化视觉语言模型边缘设备 Github 开源项目

2 个月前

相关项目

LLaMA-Factory

LLaMA-Factory是一个高效的语言模型微调工具，支持多种模型和算法。该平台专注于提高微调速度，支持连续预训练、监督微调和激励建模等策略。LLaMA-Factory利用LoRA技术实现高效训练，并提供详尽的数据监控和快速推理能力。此外，新版本还增加了PiSSA算法，且支持多种开发平台如Colab和DSW，适合高质量文本生成和智能应用开发。

mistral.rs

mistral.rs是一款支持多种设备、模型量化的大型语言模型(LLM)推理平台，配备与Open-AI API兼容的HTTP服务器和Python绑定，提供快速、精确的模型推理服务。平台支持文本和视觉模型，如AnyMoE、Llama等，采用LoRA技术和动态适配器，提高推理效率。用户可通过API在多种加速器上部署模型，实现快速计算和灵活应用。

hqq

HQQ是一种无需校准数据即可快速精确量化大模型的工具，支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型，并与多种优化的CUDA和Triton内核兼容，同时支持PEFT训练和Pytorch编译，提升推理和训练速度。详细基准测试和使用指南请访问官方博客。

chatglm.cpp

ChatGLM.cpp 是一个使用C++实现的实时聊天项目，支持ChatGLM-6B、ChatGLM2-6B、ChatGLM3和GLM-4模型，兼容多种硬件和操作系统。项目通过int4/int8量化、优化的KV缓存和并行计算技术，实现了高效的CPU推理，并支持P-Tuning v2和LoRA微调模型。该项目还提供Python绑定、网络演示和API服务器，扩展了使用场景，适用于高效实时聊天。

deepsparse

DeepSparse是一个专为CPU优化的深度学习推理运行时，通过使用稀疏性显著加快模型推理速度。结合SparseML优化库，DeepSparse支持模型剪枝和量化，在CPU上实现卓越性能。支持各种计算机视觉和自然语言处理模型，包括BERT、ViT、ResNet、YOLOv5/8等。此外，DeepSparse现已支持高效的LLM推理，对稀疏量化模型实现多倍加速。可通过PyPI安装，并提供多种API便于部署。

torchao是一个用于PyTorch工作流的高性能库，能够创建并集成自定义数据类型和优化技术，实现推理速度提升至2倍，显存减少65%。无需大幅修改代码，保持准确度。支持量化、稀疏化及浮点数优化，适用于HuggingFace等模型。用户可以轻松优化模型，提高计算效率。支持int8、int4和float8等多种数据类型，兼容torch.compile()和FSDP。

aimet

AI Model Efficiency Toolkit (AIMET) 提供先进的模型量化和压缩技术，专注于优化已训练的神经网络模型。其主要功能包括跨层均衡、偏差校正、自适应舍入和量化感知训练，显著提升模型运行性能，降低计算和内存要求，并保持任务精度。AIMET 兼容 PyTorch、TensorFlow 和 ONNX 模型，通过 AIMET Model Zoo 提供优化的8位推理神经网络模型。同时，AIMET 支持空间SVD和通道剪枝等压缩技术，并提供可视化工具检查模型量化和压缩效果。

gpt-fast

gpt-fast是一个基于PyTorch的高效Transformer文本生成项目,代码精简(<1000行Python),仅依赖PyTorch和sentencepiece。项目特点包括极低延迟、int8/int4量化、推测解码和张量并行,支持NVIDIA和AMD GPU。gpt-fast不是框架或库,而是展示原生PyTorch性能的示例。它支持LLaMA系列和Mixtral 8x7B等模型,提供详细基准测试和多种优化技术。该项目实现了高效的文本生成,展现了PyTorch在AI领域的强大性能。

dash-infer

DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎，支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能，支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构，提供高精度推理和标准LLM推理技术，兼容主流开源大语言模型，并集成了量化加速和优化计算内核等功能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com