#量化

Inferflow：高效且可配置的大型语言模型推理引擎

2 个月前

Inferflow 大语言模型推理引擎模型服务量化 Github 开源项目

2 个月前

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

2 个月前

BEV 3D Detection TensorRT 推理加速量化 GPU内存优化 Github 开源项目

2 个月前

Optimum Quanto: 为 PyTorch 模型提供高效量化的强大工具

2 个月前

Optimum Quanto 量化 PyTorch 机器学习模型优化 Github 开源项目

2 个月前

LLMC:一个强大高效的大语言模型压缩工具包

2 个月前

LLM压缩量化剪枝 LLMC 性能优化 Github 开源项目

2 个月前

模型优化技术: 提升深度学习模型性能的关键方法

2 个月前

Model Compression Toolkit MCT 神经网络优化量化模型压缩 Github 开源项目

2 个月前

Q-Diffusion: 革命性的扩散模型量化技术

2 个月前

Q-Diffusion 量化扩散模型图像生成深度学习 Github 开源项目

2 个月前

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

2 个月前

AutoAWQ 量化推理 GPU加速大语言模型 Github 开源项目

2 个月前

Awesome Efficient AIGC: 提升人工智能生成内容效率的前沿技术综述

2 个月前

AIGC LLM 量化高效推理模型压缩 Github 开源项目

2 个月前

FasterTransformer4CodeFuse: 高性能LLM推理引擎

2 个月前

FasterTransformer CodeFuse 模型推理性能优化量化 Github 开源项目

2 个月前

探索人工智能优化技术:加速AI模型性能的前沿方法

2 个月前

AI优化量化剪枝蒸馏深度学习编译器 Github 开源项目

2 个月前

相关项目

vllm

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包，专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务，显著提升请求吞吐量。支持多种量化方式和多模型服务，兼容性强。最新版本集成了TurboMind和PyTorch推理引擎，支持多种LLMs和VLMs模型，降低开发者的技术门槛。

LLM-FineTuning-Large-Language-Models

本项目介绍了如何使用ORPO、QLoRA、GPTQ等技术对大型语言模型（LLM）进行微调，包含具体实例和代码片段。项目还提供与这些技术相关的YouTube视频链接，提供全面的学习资料。此外，项目还包含各类实用工具和技术说明，帮助用户更好地理解和应用这些前沿技术。适合有一定编程基础的研究人员和开发者参考。

curated-transformers

Curated Transformers是一个为PyTorch设计的转换器库，提供最新的模型和可复用组件。支持最新的转换器模型，如Falcon、Llama和Dolly v2，具备类型注释和极少的依赖性，适合教育和生产环境。支持集成至spaCy 3.7，快速安装及支持高效的CUDA优化。

llama.onnx

此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示，无需torch或transformers，适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整，并提供导出混合精度和TVM转换的详细步骤，适用于嵌入式设备和分布式系统的大语言模型部署和推理。

Awesome-Efficient-LLM

Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术，包括知识蒸馏、网络剪枝、量化和加速推理等，支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新，提供过去60天内的相关研究成果，便于用户系统地探索和应用这些高效技术。

SqueezeLLM

SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能，将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件，实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型，提供3位和4位量化选项，适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。

docker-llama2-chat

项目介绍了如何通过Docker快速部署LLaMA2大模型，支持官方7B、13B模型及中文7B模型。用户只需三步即可上手，并提供量化版本支持CPU推理。详细教程和一键运行脚本帮助用户轻松构建和运行模型。

text-generation-inference

Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型，提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载，具备自定义提示生成和微调功能，兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com