#推理速度

ChatGLM2-6B入门学习资料汇总 - 开源双语对话模型

3 个月前

ChatGLM2-6B 模型开源性能提升推理速度显存占用 Github 开源项目

3 个月前

AutoGPTQ入门学习资料汇总 - 基于GPTQ算法的易用LLM量化工具包

3 个月前

AutoGPTQ GPTQ算法量化模型推理速度安装指南 Github 开源项目

3 个月前

EAGLE: 大语言模型高效推理的新基线

3 个月前

EAGLE 大语言模型快速解码性能维持推理速度 Github 开源项目

3 个月前

ChatGLM2-6B:开源双语对话语言模型的第二代版本

2024年08月30日

ChatGLM2-6B 模型开源性能提升推理速度显存占用 Github 开源项目

2024年08月30日

AutoGPTQ: 一个用户友好的大型语言模型量化工具包

2024年08月30日

AutoGPTQ GPTQ算法量化模型推理速度安装指南 Github 开源项目

2024年08月30日

相关项目

AutoGPTQ

AutoGPTQ是基于GPTQ算法的LLM量化工具包，支持多种模型类型和硬件平台的推理优化，整合Marlin与Exllama内核，提升推理速度与性能，适合在资源受限环境中部署高效的语言模型。

ChatGLM2-6B

ChatGLM2-6B，基于GLM技术开发的中英双语对话模型，1.4T中英数据预训练后展现出改善的多语言处理效果，支持长达32K的上下文长度，新技术支持更快的推理速度和更好的对话体验。适用于学术研究和商业应用，如聊天机器人和客服AI，提供技术支持与灵活部署方案。

EAGLE

EAGLE项目为大型语言模型提供了一种高效的快速解码方法。通过创新的特征外推技术，EAGLE显著提升了生成效率。其改进版EAGLE-2引入了动态草稿树结构，进一步优化了性能。与传统解码方法相比，EAGLE和EAGLE-2在13B模型上分别实现了3倍和4倍的速度提升。该开源项目不仅提供了多种预训练模型权重，还支持各类LLM架构，并配备了详尽的使用文档和评估工具。

whisper-large-v3-french-distil-dec8

Whisper-Large-V3-French-Distil通过减少解码层数和优化推理时间，实现法语语音识别的高效性。该模型支持多种库，如transformers和openai-whisper，并能与原版Whisper-Large-V3-French模型结合使用，增强推理速度和结果一致性。评估数据表明其在多语料库中将单词错误率（WER）降至较低水平。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com