#推理速度

AutoGPTQ - 基于GPTQ算法的LLM量化与推理优化工具包

AutoGPTQGPTQ算法量化模型推理速度安装指南Github开源项目

AutoGPTQ是基于GPTQ算法的LLM量化工具包，支持多种模型类型和硬件平台的推理优化，整合Marlin与Exllama内核，提升推理速度与性能，适合在资源受限环境中部署高效的语言模型。

ChatGLM2-6B - 基于GLM技术开发的中英双语对话模型

ChatGLM2-6B模型开源性能提升推理速度显存占用Github开源项目

ChatGLM2-6B，基于GLM技术开发的中英双语对话模型，1.4T中英数据预训练后展现出改善的多语言处理效果，支持长达32K的上下文长度，新技术支持更快的推理速度和更好的对话体验。适用于学术研究和商业应用，如聊天机器人和客服AI，提供技术支持与灵活部署方案。

EAGLE - 大型语言模型快速解码的新突破

EAGLE大语言模型快速解码性能维持推理速度Github开源项目

EAGLE项目为大型语言模型提供了一种高效的快速解码方法。通过创新的特征外推技术，EAGLE显著提升了生成效率。其改进版EAGLE-2引入了动态草稿树结构，进一步优化了性能。与传统解码方法相比，EAGLE和EAGLE-2在13B模型上分别实现了3倍和4倍的速度提升。该开源项目不仅提供了多种预训练模型权重，还支持各类LLM架构，并配备了详尽的使用文档和评估工具。

whisper-large-v3-french-distil-dec8 - 优化法语语音识别的内存使用和推理效率

Whisper-Large-V3-French-Distil-Dec8法语语音转录Huggingface模型自动语音识别推理速度Github开源项目

Whisper-Large-V3-French-Distil通过减少解码层数和优化推理时间，实现法语语音识别的高效性。该模型支持多种库，如transformers和openai-whisper，并能与原版Whisper-Large-V3-French模型结合使用，增强推理速度和结果一致性。评估数据表明其在多语料库中将单词错误率（WER）降至较低水平。

相关文章

Article Cover

AutoGPTQ: 一个用户友好的大型语言模型量化工具包

Article Cover

ChatGLM2-6B:开源双语对话语言模型的第二代版本

Article Cover

EAGLE: 大语言模型高效推理的新基线

Article Cover

AutoGPTQ入门学习资料汇总 - 基于GPTQ算法的易用LLM量化工具包

Article Cover

ChatGLM2-6B入门学习资料汇总 - 开源双语对话模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号