#推理效率

SenseVoice学习资料汇总 - 多语种语音理解模型

2 个月前

SenseVoice 多语言语音识别情绪识别音频事件检测推理效率 Github 开源项目热门

2 个月前

H2O: 高效大语言模型生成推理的重要访问优化技术

3 个月前

H2O 大语言模型 KV缓存推理效率注意力机制 Github 开源项目

3 个月前

SenseVoice: 多语言语音理解的革新性模型

3 个月前

SenseVoice 多语言语音识别情绪识别音频事件检测推理效率 Github 开源项目热门

3 个月前

相关项目

SenseVoice

SenseVoice是一款支持多语言的语音解析模型，整合了自动语音识别、语种识别、情绪识别及音频事件检测功能。该项目采用非自回归端到端框架，可在超过50种语言上提供精准的语音识别服务，大幅降低了推理延迟，提供方便的微调脚本和多语种细粒度情绪分析，支持多种客户端语言和服务部署，适用于多种商业场景。

H2O

H2O项目提出了一种创新的KV缓存实现方法，通过识别对注意力分数贡献最大的少数token，显著减少了大型语言模型推理的内存占用。该项目引入了Heavy Hitter Oracle (H2O)作为KV缓存淘汰策略，在多个任务中验证了其准确性。在OPT-6.7B和OPT-30B模型上，H2O显著提高了推理吞吐量并减少了延迟，为大型语言模型的高效推理提供了新的解决方案。

TinyLlama-1.1B-Chat-v0.3-AWQ

该项目采用AWQ低位量化方法，提高了多用户服务器场景下的Transformers推理速度和效率。相比GPTQ，AWQ在减少部署成本的同时，能够使用更小的GPU进行推理。TinyLlama模型支持4-bit量化，并兼容vLLM与Huggingface TGI插件，高效应对高并发需求。在Zhang Peiyuan的开发下，该模型适合计算和内存资源有限的开源项目部署。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com