#推理加速

Chinese-Mixtral-8x7B学习资源汇总 - 开源中文Mixtral混合专家大模型

2 个月前

Chinese-Mixtral-8x7B MoE模型增量预训练模型下载推理加速 Github 开源项目

2 个月前

LMOps学习资料汇总 - 微软开源的大语言模型操作技术

2 个月前

LMOps LLM 生成式AI 提示优化推理加速 Github 开源项目

2 个月前

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

3 个月前

BEV 3D Detection TensorRT 推理加速量化 GPU内存优化 Github 开源项目

3 个月前

TinyEngine: 高效的微控制器深度学习推理引擎

3 个月前

TinyEngine 微控制器深度学习内存优化推理加速 Github 开源项目

3 个月前

推动大语言模型推理加速的新技术:深入解析推测性解码

3 个月前

Speculative Decoding 大语言模型性能优化推理加速自然语言处理 Github 开源项目

3 个月前

REST: 高效的检索式推测解码技术

3 个月前

REST 语言模型推理加速检索式生成推测解码 Github 开源项目

3 个月前

TriForce: 革新性的层次化推测解码技术加速长序列生成

3 个月前

TriForce 长序列生成推理加速深度学习无损加速 Github 开源项目

3 个月前

KIVI:一种无需微调的非对称2比特KV缓存量化方法

3 个月前

KIVI KV缓存量化 LLM 内存优化推理加速 Github 开源项目

3 个月前

GPTFast：加速Hugging Face Transformers模型推理的强大工具

3 个月前

GPTFast 推理加速 Hugging Face 静态键值缓存量化 Github 开源项目

3 个月前

TriForce：革新长序列生成的无损加速技术

3 个月前

TriForce 长序列生成推理加速深度学习无损加速 Github 开源项目

3 个月前

相关项目

LMOps

LMOps项目专注于使用基础模型构建AI产品，尤其是在长语言模型和生成AI模型领域的研究。项目涵盖自动提示优化、结构化提示、对齐、加速推理和定制化等技术。最新成果包括提示优化、上下文示例选择、指令调优和零样本评估，旨在提升模型性能和应用广泛性。项目正在招聘各级别研究人员，共同推进AI技术的发展。

Chinese-Mixtral-8x7B

Chinese-Mixtral-8x7B通过中文扩词表和增量预训练，提高了在中文编解码和生成理解能力。项目提供完整的开源模型及预训练代码，支持QLoRA训练和多种推理加速方案。其在中文知识和理解上的表现卓越，同时在英文方面也表现不俗，适用于各种中文自然语言处理应用场景。

TensorRT-YOLO

此项目基于TensorRT，为YOLO目标检测模型提供推理加速解决方案，支持YOLOv3至YOLOv10及PP-YOLOE系列。集成EfficientNMS插件及CUDA技术，有效提升推理效率。支持C++和Python，包含CLI快速导出和推理功能，并提供Docker一键部署。推荐CUDA 11.6及以上版本和TensorRT 8.6及以上版本。

sparsify

Sparsify使用先进的剪枝、量化和蒸馏算法，在加速推理的同时保持模型精度。该工具由两部分组成：Sparsify Cloud，提供实验创建、管理和结果比较的在线平台；Sparsify CLI/API，作为Python包和GitHub库，支持本地实验运行与云端同步。当前版本正逐步转向大语言模型优化。

LookaheadDecoding

LookaheadDecoding项目开发了一种创新的并行解码算法，旨在加速大型语言模型(LLM)的推理过程。该方法不依赖草稿模型或数据存储，而是结合Jacobi迭代和n-gram缓存技术，有效减少解码步骤。实验结果显示，在多个数据集上可将延迟降低1.5到2.3倍。项目提供便捷的安装和使用方式，并支持FlashAttention技术，可广泛应用于各类LLM场景。

LLMLingua

LLMLingua系列是一套创新的提示词压缩工具，可将提示词压缩至原长度的5%，同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记，该技术有效解决长文本处理和上下文遗忘等问题，大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本，适用于检索增强生成、在线会议和代码处理等多种场景。

KIVI

KIVI是一种创新的2比特KV缓存量化算法，无需模型微调即可优化大型语言模型的内存使用。该算法对键缓存按通道、值缓存按令牌进行量化，适用于Llama-2、Falcon和Mistral等模型。KIVI在保持模型质量的同时，将峰值内存使用降低2.6倍，批处理大小提升4倍，推理吞吐量增加2.35至3.47倍。其硬件友好设计有效缓解了大型语言模型推理中的速度和内存瓶颈问题。

REST

REST是一种创新检索式推测解码方法，利用数据存储检索草稿令牌以加速大语言模型生成。无需额外训练，可即插即用于现有语言模型。在HumanEval和MT-Bench测试中，REST展现显著速度提升，为提高大语言模型效率开辟新途径。

GPTFast

GPTFast是一个为Hugging Face Transformers模型优化推理速度的开源Python库。它集成了多种加速技术,如静态键值缓存、int4量化和推测解码,可将模型推理速度提升7.6-9倍。GPTFast支持torch.compile、int8量化、GPTQ int4量化等优化方法,通过简单的API调用即可应用于各类Hugging Face模型。该项目持续更新,未来计划引入更多先进的加速技术。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com