#推理速度

AutoGPTQ - 基于GPTQ算法的LLM量化与推理优化工具包
AutoGPTQGPTQ算法量化模型推理速度安装指南Github开源项目
AutoGPTQ是基于GPTQ算法的LLM量化工具包,支持多种模型类型和硬件平台的推理优化,整合Marlin与Exllama内核,提升推理速度与性能,适合在资源受限环境中部署高效的语言模型。
ChatGLM2-6B - 基于GLM技术开发的中英双语对话模型
ChatGLM2-6B模型开源性能提升推理速度显存占用Github开源项目
ChatGLM2-6B,基于GLM技术开发的中英双语对话模型,1.4T中英数据预训练后展现出改善的多语言处理效果,支持长达32K的上下文长度,新技术支持更快的推理速度和更好的对话体验。适用于学术研究和商业应用,如聊天机器人和客服AI,提供技术支持与灵活部署方案。
EAGLE - 大型语言模型快速解码的新突破
EAGLE大语言模型快速解码性能维持推理速度Github开源项目
EAGLE项目为大型语言模型提供了一种高效的快速解码方法。通过创新的特征外推技术,EAGLE显著提升了生成效率。其改进版EAGLE-2引入了动态草稿树结构,进一步优化了性能。与传统解码方法相比,EAGLE和EAGLE-2在13B模型上分别实现了3倍和4倍的速度提升。该开源项目不仅提供了多种预训练模型权重,还支持各类LLM架构,并配备了详尽的使用文档和评估工具。
whisper-large-v3-french-distil-dec8 - 优化法语语音识别的内存使用和推理效率
Whisper-Large-V3-French-Distil-Dec8法语语音转录Huggingface模型自动语音识别推理速度Github开源项目
Whisper-Large-V3-French-Distil通过减少解码层数和优化推理时间,实现法语语音识别的高效性。该模型支持多种库,如transformers和openai-whisper,并能与原版Whisper-Large-V3-French模型结合使用,增强推理速度和结果一致性。评估数据表明其在多语料库中将单词错误率(WER)降至较低水平。