#量化

Inferflow:高效且可配置的大型语言模型推理引擎

2 个月前
Cover of Inferflow:高效且可配置的大型语言模型推理引擎

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

2 个月前
Cover of BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

Optimum Quanto: 为 PyTorch 模型提供高效量化的强大工具

2 个月前
Cover of Optimum Quanto: 为 PyTorch 模型提供高效量化的强大工具

LLMC:一个强大高效的大语言模型压缩工具包

2 个月前
Cover of LLMC:一个强大高效的大语言模型压缩工具包

模型优化技术: 提升深度学习模型性能的关键方法

2 个月前
Cover of 模型优化技术: 提升深度学习模型性能的关键方法

Q-Diffusion: 革命性的扩散模型量化技术

2 个月前
Cover of Q-Diffusion: 革命性的扩散模型量化技术

AutoAWQ: 基于AWQ算法的4位量化推理加速工具

2 个月前
Cover of AutoAWQ: 基于AWQ算法的4位量化推理加速工具

Awesome Efficient AIGC: 提升人工智能生成内容效率的前沿技术综述

2 个月前
Cover of Awesome Efficient AIGC: 提升人工智能生成内容效率的前沿技术综述

FasterTransformer4CodeFuse: 高性能LLM推理引擎

2 个月前
Cover of FasterTransformer4CodeFuse: 高性能LLM推理引擎

探索人工智能优化技术:加速AI模型性能的前沿方法

2 个月前
Cover of 探索人工智能优化技术:加速AI模型性能的前沿方法
相关项目
Project Cover

vllm

vLLM是一个高性能且易用的LLM推理与服务平台,具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型,兼容多种硬件设备,支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

Project Cover

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包,专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务,显著提升请求吞吐量。支持多种量化方式和多模型服务,兼容性强。最新版本集成了TurboMind和PyTorch推理引擎,支持多种LLMs和VLMs模型,降低开发者的技术门槛。

Project Cover

LLM-FineTuning-Large-Language-Models

本项目介绍了如何使用ORPO、QLoRA、GPTQ等技术对大型语言模型(LLM)进行微调,包含具体实例和代码片段。项目还提供与这些技术相关的YouTube视频链接,提供全面的学习资料。此外,项目还包含各类实用工具和技术说明,帮助用户更好地理解和应用这些前沿技术。适合有一定编程基础的研究人员和开发者参考。

Project Cover

curated-transformers

Curated Transformers是一个为PyTorch设计的转换器库,提供最新的模型和可复用组件。支持最新的转换器模型,如Falcon、Llama和Dolly v2,具备类型注释和极少的依赖性,适合教育和生产环境。支持集成至spaCy 3.7,快速安装及支持高效的CUDA优化。

Project Cover

llama.onnx

此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示,无需torch或transformers,适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整,并提供导出混合精度和TVM转换的详细步骤,适用于嵌入式设备和分布式系统的大语言模型部署和推理。

Project Cover

Awesome-Efficient-LLM

Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术,包括知识蒸馏、网络剪枝、量化和加速推理等,支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新,提供过去60天内的相关研究成果,便于用户系统地探索和应用这些高效技术。

Project Cover

SqueezeLLM

SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能,将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件,实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型,提供3位和4位量化选项,适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。

Project Cover

docker-llama2-chat

项目介绍了如何通过Docker快速部署LLaMA2大模型,支持官方7B、13B模型及中文7B模型。用户只需三步即可上手,并提供量化版本支持CPU推理。详细教程和一键运行脚本帮助用户轻松构建和运行模型。

Project Cover

text-generation-inference

Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型,提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载,具备自定义提示生成和微调功能,兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号