#推理加速

LMOps - 关于构建具有基础模型的 AI 产品的基础研究和技术的研究计划
LMOpsLLM生成式AI提示优化推理加速Github开源项目
LMOps项目专注于使用基础模型构建AI产品,尤其是在长语言模型和生成AI模型领域的研究。项目涵盖自动提示优化、结构化提示、对齐、加速推理和定制化等技术。最新成果包括提示优化、上下文示例选择、指令调优和零样本评估,旨在提升模型性能和应用广泛性。项目正在招聘各级别研究人员,共同推进AI技术的发展。
Chinese-Mixtral-8x7B - 增强中文编解码能力的开源大模型
Chinese-Mixtral-8x7BMoE模型增量预训练模型下载推理加速Github开源项目
Chinese-Mixtral-8x7B通过中文扩词表和增量预训练,提高了在中文编解码和生成理解能力。项目提供完整的开源模型及预训练代码,支持QLoRA训练和多种推理加速方案。其在中文知识和理解上的表现卓越,同时在英文方面也表现不俗,适用于各种中文自然语言处理应用场景。
TensorRT-YOLO - 为YOLO目标检测模型提供推理加速解决方案
TensorRT-YOLOYOLO目标检测CUDA推理加速Github开源项目
此项目基于TensorRT,为YOLO目标检测模型提供推理加速解决方案,支持YOLOv3至YOLOv10及PP-YOLOE系列。集成EfficientNMS插件及CUDA技术,有效提升推理效率。支持C++和Python,包含CLI快速导出和推理功能,并提供Docker一键部署。推荐CUDA 11.6及以上版本和TensorRT 8.6及以上版本。
sparsify - 机器学习模型推理优化解决方案
SparsifyNeural Magic模型优化深度学习推理加速Github开源项目
Sparsify使用先进的剪枝、量化和蒸馏算法,在加速推理的同时保持模型精度。该工具由两部分组成:Sparsify Cloud,提供实验创建、管理和结果比较的在线平台;Sparsify CLI/API,作为Python包和GitHub库,支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。
LookaheadDecoding - 创新并行算法加速大型语言模型推理
Lookahead DecodingLLM并行解码推理加速Jacobi迭代Github开源项目
LookaheadDecoding项目开发了一种创新的并行解码算法,旨在加速大型语言模型(LLM)的推理过程。该方法不依赖草稿模型或数据存储,而是结合Jacobi迭代和n-gram缓存技术,有效减少解码步骤。实验结果显示,在多个数据集上可将延迟降低1.5到2.3倍。项目提供便捷的安装和使用方式,并支持FlashAttention技术,可广泛应用于各类LLM场景。
LLMLingua - 提示词压缩技术助力大语言模型效率提升
LLMLingua提示词压缩大语言模型长文本处理推理加速Github开源项目
LLMLingua系列是一套创新的提示词压缩工具,可将提示词压缩至原长度的5%,同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记,该技术有效解决长文本处理和上下文遗忘等问题,大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本,适用于检索增强生成、在线会议和代码处理等多种场景。
KIVI - 高效2比特KV缓存量化算法提升大型语言模型性能
KIVIKV缓存量化LLM内存优化推理加速Github开源项目
KIVI是一种创新的2比特KV缓存量化算法,无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化,适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时,将峰值内存使用降低2.6倍,批处理大小提升4倍,推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。
REST - 创新检索式推测解码加速大语言模型生成
REST语言模型推理加速检索式生成推测解码Github开源项目
REST是一种创新检索式推测解码方法,利用数据存储检索草稿令牌以加速大语言模型生成。无需额外训练,可即插即用于现有语言模型。在HumanEval和MT-Bench测试中,REST展现显著速度提升,为提高大语言模型效率开辟新途径。
GPTFast - Hugging Face Transformers模型推理加速工具
GPTFast推理加速Hugging Face静态键值缓存量化Github开源项目
GPTFast是一个为Hugging Face Transformers模型优化推理速度的开源Python库。它集成了多种加速技术,如静态键值缓存、int4量化和推测解码,可将模型推理速度提升7.6-9倍。GPTFast支持torch.compile、int8量化、GPTQ int4量化等优化方法,通过简单的API调用即可应用于各类Hugging Face模型。该项目持续更新,未来计划引入更多先进的加速技术。
TriForce - 层级推测解码实现长序列生成的高效无损加速
TriForce长序列生成推理加速深度学习无损加速Github开源项目
TriForce是一种新型长序列生成加速技术,无需额外训练即可使用。通过层级推测解码方法,该技术在保持生成质量的同时大幅提高速度。TriForce支持多种长上下文Llama模型,提供片上和卸载运行模式以适应不同硬件。在A100和RTX 4090等GPU上,TriForce展现出优异性能,为大型语言模型的高效部署开辟新途径。
tinyengine - 微控制器神经网络库优化内存和性能
TinyEngine微控制器深度学习内存优化推理加速Github开源项目
TinyEngine是专为微控制器设计的神经网络库,通过原地深度卷积和基于块的推理等技术优化内存管理和推理性能。相比现有解决方案,TinyEngine将推理速度提升1.1-18.6倍,峰值内存减少1.3-3.6倍。作为微控制器AI应用的基础设施,TinyEngine在有限内存预算下实现了更高性能,为微控制器深度学习部署提供了有力支持。
speculative-decoding - 推测解码技术,优化大型语言模型推理速度
Speculative Decoding大语言模型性能优化推理加速自然语言处理Github开源项目
该开源项目聚焦于推测解码技术的研究与实现,旨在提升大型语言模型的文本生成效率。项目涵盖了多种推测解码策略,包括提前退出、推测采样和先知变压器。同时,项目致力于优化批处理推测解码,以增强整体性能。研究计划还包括对比不同策略的效果,并探索微观优化方法。这些工作为加快AI模型推理速度提供了新的技术思路。
BEVFormer_tensorrt - BEVFormer和BEVDet的TensorRT高效部署方案
BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。
llama-68m - LLaMA类轻量级语言模型助力高效推理
文本生成Huggingface模型Github开源项目自然语言处理推理加速LLaMA模型训练
llama-68m是一个参数仅为6800万的LLaMA类模型,通过Wikipedia和部分C4数据集训练而成。作为SpecInfer论文中的小型推测模型基础,它旨在通过推测性推理和标记树验证技术加速大语言模型服务。尽管参数量小,但设计目标是提高推理效率。由于尚未进行全面评估,建议谨慎使用。
distil-medium.en - 高效快速的英语语音识别模型
模型开源项目Huggingface模型压缩Distil-Whisper语音识别GithubTransformers推理加速
Distil-Whisper是OpenAI Whisper模型的压缩版,专为英语语音识别优化。该模型速度提升6倍,体积减少49%,性能仅下降1% WER。通过教师-学生蒸馏法在22,000小时多样化音频数据上训练,可直接替代Whisper用于短长音频转录,支持流式处理。
gemma-2-2b-it-GGUF - Google Gemma模型的GGUF量化版本支持多种位宽
语言模型Huggingface模型Github开源工具开源项目推理加速GGUF量化
本项目提供Google Gemma-2-2b-it模型的GGUF格式量化版本,支持2-bit至8-bit多种位宽。GGUF是llama.cpp团队开发的新格式,取代了旧有的GGML。该项目与多种支持GGUF的工具兼容,如llama.cpp和LM Studio等,这些工具提供命令行界面、服务器和图形用户界面等多种使用方式,并支持GPU加速,实现了高效灵活的本地模型应用。