#推理加速
LMOps - 关于构建具有基础模型的 AI 产品的基础研究和技术的研究计划
LMOpsLLM生成式AI提示优化推理加速Github开源项目
LMOps项目专注于使用基础模型构建AI产品,尤其是在长语言模型和生成AI模型领域的研究。项目涵盖自动提示优化、结构化提示、对齐、加速推理和定制化等技术。最新成果包括提示优化、上下文示例选择、指令调优和零样本评估,旨在提升模型性能和应用广泛性。项目正在招聘各级别研究人员,共同推进AI技术的发展。
Chinese-Mixtral-8x7B - 增强中文编解码能力的开源大模型
Chinese-Mixtral-8x7BMoE模型增量预训练模型下载推理加速Github开源项目
Chinese-Mixtral-8x7B通过中文扩词表和增量预训练,提高了在中文编解码和生成理解能力。项目提供完整的开源模型及预训练代码,支持QLoRA训练和多种推理加速方案。其在中文知识和理解上的表现卓越,同时在英文方面也表现不俗,适用于各种中文自然语言处理应用场景。
TensorRT-YOLO - 为YOLO目标检测模型提供推理加速解决方案
TensorRT-YOLOYOLO目标检测CUDA推理加速Github开源项目
此项目基于TensorRT,为YOLO目标检测模型提供推理加速解决方案,支持YOLOv3至YOLOv10及PP-YOLOE系列。集成EfficientNMS插件及CUDA技术,有效提升推理效率。支持C++和Python,包含CLI快速导出和推理功能,并提供Docker一键部署。推荐CUDA 11.6及以上版本和TensorRT 8.6及以上版本。
sparsify - 机器学习模型推理优化解决方案
SparsifyNeural Magic模型优化深度学习推理加速Github开源项目
Sparsify使用先进的剪枝、量化和蒸馏算法,在加速推理的同时保持模型精度。该工具由两部分组成:Sparsify Cloud,提供实验创建、管理和结果比较的在线平台;Sparsify CLI/API,作为Python包和GitHub库,支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。
LookaheadDecoding - 创新并行算法加速大型语言模型推理
Lookahead DecodingLLM并行解码推理加速Jacobi迭代Github开源项目
LookaheadDecoding项目开发了一种创新的并行解码算法,旨在加速大型语言模型(LLM)的推理过程。该方法不依赖草稿模型或数据存储,而是结合Jacobi迭代和n-gram缓存技术,有效减少解码步骤。实验结果显示,在多个数据集上可将延迟降低1.5到2.3倍。项目提供便捷的安装和使用方式,并支持FlashAttention技术,可广泛应用于各类LLM场景。
LLMLingua - 提示词压缩技术助力大语言模型效率提升
LLMLingua提示词压缩大语言模型长文本处理推理加速Github开源项目
LLMLingua系列是一套创新的提示词压缩工具,可将提示词压缩至原长度的5%,同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记,该技术有效解决长文本处理和上下文遗忘等问题,大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本,适用于检索增强生成、在线会议和代码处理等多种场景。
KIVI - 高效2比特KV缓存量化算法提升大型语言模型性能
KIVIKV缓存量化LLM内存优化推理加速Github开源项目
KIVI是一种创新的2比特KV缓存量化算法,无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化,适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时,将峰值内存使用降低2.6倍,批处理大小提升4倍,推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。
REST - 创新检索式推测解码加速大语言模型生成
REST语言模型推理加速检索式生成推测解码Github开源项目
REST是一种创新检索式推测解码方法,利用数据存储检索草稿令牌以加速大语言模型生成。无需额外训练,可即插即用于现有语言模型。在HumanEval和MT-Bench测试中,REST展现显著速度提升,为提高大语言模型效率开辟新途径。
GPTFast - Hugging Face Transformers模型推理加速工具
GPTFast推理加速Hugging Face静态键值缓存量化Github开源项目
GPTFast是一个为Hugging Face Transformers模型优化推理速度的开源Python库。它集成了多种加速技术,如静态键值缓存、int4量化和推测解码,可将模型推理速度提升7.6-9倍。GPTFast支持torch.compile、int8量化、GPTQ int4量化等优化方法,通过简单的API调用即可应用于各类Hugging Face模型。该项目持续更新,未来计划引入更多先进的加速技术。
TriForce - 层级推测解码实现长序列生成的高效无损加速
TriForce长序列生成推理加速深度学习无损加速Github开源项目
TriForce是一种新型长序列生成加速技术,无需额外训练即可使用。通过层级推测解码方法,该技术在保持生成质量的同时大幅提高速度。TriForce支持多种长上下文Llama模型,提供片上和卸载运行模式以适应不同硬件。在A100和RTX 4090等GPU上,TriForce展现出优异性能,为大型语言模型的高效部署开辟新途径。
tinyengine - 微控制器神经网络库优化内存和性能
TinyEngine微控制器深度学习内存优化推理加速Github开源项目
TinyEngine是专为微控制器设计的神经网络库,通过原地深度卷积和基于块的推理等技术优化内存管理和推理性能。相比现有解决方案,TinyEngine将推理速度提升1.1-18.6倍,峰值内存减少1.3-3.6倍。作为微控制器AI应用的基础设施,TinyEngine在有限内存预算下实现了更高性能,为微控制器深度学习部署提供了有力支持。
speculative-decoding - 推测解码技术,优化大型语言模型推理速度
Speculative Decoding大语言模型性能优化推理加速自然语言处理Github开源项目
该开源项目聚焦于推测解码技术的研究与实现,旨在提升大型语言模型的文本生成效率。项目涵盖了多种推测解码策略,包括提前退出、推测采样和先知变压器。同时,项目致力于优化批处理推测解码,以增强整体性能。研究计划还包括对比不同策略的效果,并探索微观优化方法。这些工作为加快AI模型推理速度提供了新的技术思路。
BEVFormer_tensorrt - BEVFormer和BEVDet的TensorRT高效部署方案
BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。
相关文章
LMOps: 微软开源的大语言模型操作工具集
3 个月前
Chinese-Mixtral-8x7B: 开启中文大规模语言模型新篇章
3 个月前
TensorRT-YOLO: 高效的YOLO目标检测加速项目
3 个月前
Sparsify: 深度学习模型优化利器
3 个月前
突破顺序依赖:Lookahead Decoding加速大语言模型推理
3 个月前
LLMLingua: 突破大语言模型推理瓶颈的高效提示压缩技术
3 个月前
GPTFast:加速Hugging Face Transformers模型推理的高效解决方案
3 个月前
TriForce:革新长序列生成的无损加速技术
3 个月前
GPTFast:加速Hugging Face Transformers模型推理的强大工具
3 个月前