#稀疏性

deepsparse - 优化CPU上深度学习推理的高效稀疏性使用

DeepSparseCPU推理稀疏性模型量化LLM支持Github开源项目

DeepSparse是一个专为CPU优化的深度学习推理运行时，通过使用稀疏性显著加快模型推理速度。结合SparseML优化库，DeepSparse支持模型剪枝和量化，在CPU上实现卓越性能。支持各种计算机视觉和自然语言处理模型，包括BERT、ViT、ResNet、YOLOv5/8等。此外，DeepSparse现已支持高效的LLM推理，对稀疏量化模型实现多倍加速。可通过PyPI安装，并提供多种API便于部署。

Quest - 长文本LLM推理的查询感知稀疏化框架

长上下文LLM推理稀疏性KV缓存注意力机制QuestGithub开源项目

Quest是一个创新的长文本LLM推理框架，通过在KV缓存中应用查询感知稀疏化技术，显著减少了注意力计算中的内存移动。该框架跟踪缓存页面的Key值范围，并利用Query向量评估页面重要性，仅加载最关键的KV缓存页面。实验表明，Quest可将自注意力计算速度提升至7.03倍，推理延迟降低2.23倍，同时在长依赖任务中保持高精度。

wanda - 基于权重和激活的大型语言模型剪枝技术

WandaLLM剪枝模型压缩稀疏性权重激活Github开源项目

Wanda是一种针对大型语言模型(LLM)的剪枝技术，通过结合权重大小和输入激活范数来选择性移除权重。相比传统的仅基于权重大小的剪枝方法，Wanda展现出更高的效率。该技术支持LLaMA、LLaMA-2等多种模型，可实现非结构化和结构化稀疏。Wanda方法简单实用，在维持模型性能的同时有效降低参数量，为LLM的轻量化和优化开辟了新途径。

bge-small-en-v1.5-quant - 高效量化嵌入模型提升自然语言处理性能

稀疏性量化深度稀疏模型Github开源项目嵌入MTEBHuggingface

bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型，适合资源受限环境，支持多种分类和检索任务，并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上，实现了91.89%的准确率。其结合了量化和稀疏性技术，使得模型具备轻量化并易于在低算力设备上部署，是自然语言处理应用的理想选择。

相关文章

Article Cover

Quest: 将查询感知稀疏化应用于大型语言模型,提高长文本推理效率

Article Cover

Wanda：一种简单高效的大语言模型剪枝方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号