#推理加速

GPTFast：加速Hugging Face Transformers模型推理的高效解决方案

3 个月前

GPTFast 推理加速 Hugging Face 静态键值缓存量化 Github 开源项目

3 个月前

LLMLingua: 突破大语言模型推理瓶颈的高效提示压缩技术

3 个月前

LLMLingua 提示词压缩大语言模型长文本处理推理加速 Github 开源项目

3 个月前

突破顺序依赖：Lookahead Decoding加速大语言模型推理

3 个月前

Lookahead Decoding LLM 并行解码推理加速 Jacobi迭代 Github 开源项目

3 个月前

Sparsify: 深度学习模型优化利器

3 个月前

Sparsify Neural Magic 模型优化深度学习推理加速 Github 开源项目

3 个月前

TensorRT-YOLO: 高效的YOLO目标检测加速项目

3 个月前

TensorRT-YOLO YOLO 目标检测 CUDA 推理加速 Github 开源项目

3 个月前

Chinese-Mixtral-8x7B: 开启中文大规模语言模型新篇章

3 个月前

Chinese-Mixtral-8x7B MoE模型增量预训练模型下载推理加速 Github 开源项目

3 个月前

LMOps: 微软开源的大语言模型操作工具集

3 个月前

LMOps LLM 生成式AI 提示优化推理加速 Github 开源项目

3 个月前

相关项目

LMOps

LMOps项目专注于使用基础模型构建AI产品，尤其是在长语言模型和生成AI模型领域的研究。项目涵盖自动提示优化、结构化提示、对齐、加速推理和定制化等技术。最新成果包括提示优化、上下文示例选择、指令调优和零样本评估，旨在提升模型性能和应用广泛性。项目正在招聘各级别研究人员，共同推进AI技术的发展。

Chinese-Mixtral-8x7B

Chinese-Mixtral-8x7B通过中文扩词表和增量预训练，提高了在中文编解码和生成理解能力。项目提供完整的开源模型及预训练代码，支持QLoRA训练和多种推理加速方案。其在中文知识和理解上的表现卓越，同时在英文方面也表现不俗，适用于各种中文自然语言处理应用场景。

TensorRT-YOLO

此项目基于TensorRT，为YOLO目标检测模型提供推理加速解决方案，支持YOLOv3至YOLOv10及PP-YOLOE系列。集成EfficientNMS插件及CUDA技术，有效提升推理效率。支持C++和Python，包含CLI快速导出和推理功能，并提供Docker一键部署。推荐CUDA 11.6及以上版本和TensorRT 8.6及以上版本。

sparsify

Sparsify使用先进的剪枝、量化和蒸馏算法，在加速推理的同时保持模型精度。该工具由两部分组成：Sparsify Cloud，提供实验创建、管理和结果比较的在线平台；Sparsify CLI/API，作为Python包和GitHub库，支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。

LookaheadDecoding

LookaheadDecoding项目开发了一种创新的并行解码算法，旨在加速大型语言模型(LLM)的推理过程。该方法不依赖草稿模型或数据存储，而是结合Jacobi迭代和n-gram缓存技术，有效减少解码步骤。实验结果显示，在多个数据集上可将延迟降低1.5到2.3倍。项目提供便捷的安装和使用方式，并支持FlashAttention技术，可广泛应用于各类LLM场景。

LLMLingua

LLMLingua系列是一套创新的提示词压缩工具，可将提示词压缩至原长度的5%，同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记，该技术有效解决长文本处理和上下文遗忘等问题，大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本，适用于检索增强生成、在线会议和代码处理等多种场景。

KIVI

KIVI是一种创新的2比特KV缓存量化算法，无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化，适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时，将峰值内存使用降低2.6倍，批处理大小提升4倍，推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。

REST

REST是一种创新检索式推测解码方法，利用数据存储检索草稿令牌以加速大语言模型生成。无需额外训练，可即插即用于现有语言模型。在HumanEval和MT-Bench测试中，REST展现显著速度提升，为提高大语言模型效率开辟新途径。

GPTFast

GPTFast是一个为Hugging Face Transformers模型优化推理速度的开源Python库。它集成了多种加速技术,如静态键值缓存、int4量化和推测解码,可将模型推理速度提升7.6-9倍。GPTFast支持torch.compile、int8量化、GPTQ int4量化等优化方法,通过简单的API调用即可应用于各类Hugging Face模型。该项目持续更新,未来计划引入更多先进的加速技术。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com