#推理性能

SwiftInfer：高效的AI推理与服务框架

3 个月前

SwiftInfer TensorRT-LLM Streaming-LLM 长文本模型推理性能 Github 开源项目

3 个月前

相关项目

SwiftInfer

SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术，提升长文本输入处理的有效性。借助 Attention Sink 技术，避免模型在注意力窗口变动时发生故障，确保在生产环境中的高效运行，非常适合对推理效率和稳定性要求高的大模型应用。

InternVL2-8B

InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异，同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口，能够处理长文本、多图像和视频输入，在开源多模态模型中具有竞争力。

distilbart-xsum-12-6

distilbart-xsum-12-6是一款经过优化的文本摘要模型。与BART基线模型相比，它在保持相似Rouge评分的同时，大幅减少了参数量和推理时间。模型仅使用306MM参数，推理速度提升1.68倍，Rouge-2和Rouge-L分数分别达到22.12和36.99。该模型基于CNN/DailyMail和XSum数据集训练，适合需要高效处理的文本摘要任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com