#推理效率
相关项目
SenseVoice
SenseVoice是一款支持多语言的语音解析模型,整合了自动语音识别、语种识别、情绪识别及音频事件检测功能。该项目采用非自回归端到端框架,可在超过50种语言上提供精准的语音识别服务,大幅降低了推理延迟,提供方便的微调脚本和多语种细粒度情绪分析,支持多种客户端语言和服务部署,适用于多种商业场景。
H2O
H2O项目提出了一种创新的KV缓存实现方法,通过识别对注意力分数贡献最大的少数token,显著减少了大型语言模型推理的内存占用。该项目引入了Heavy Hitter Oracle (H2O)作为KV缓存淘汰策略,在多个任务中验证了其准确性。在OPT-6.7B和OPT-30B模型上,H2O显著提高了推理吞吐量并减少了延迟,为大型语言模型的高效推理提供了新的解决方案。
TinyLlama-1.1B-Chat-v0.3-AWQ
该项目采用AWQ低位量化方法,提高了多用户服务器场景下的Transformers推理速度和效率。相比GPTQ,AWQ在减少部署成本的同时,能够使用更小的GPU进行推理。TinyLlama模型支持4-bit量化,并兼容vLLM与Huggingface TGI插件,高效应对高并发需求。在Zhang Peiyuan的开发下,该模型适合计算和内存资源有限的开源项目部署。