#推理性能

SwiftInfer - AI 推理和服务

Github开源项目TensorRT-LLMSwiftInferStreaming-LLM长文本模型推理性能

SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术，提升长文本输入处理的有效性。借助 Attention Sink 技术，避免模型在注意力窗口变动时发生故障，确保在生产环境中的高效运行，非常适合对推理效率和稳定性要求高的大模型应用。

InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

Github开源项目模型Huggingface指令微调多模态大语言模型推理性能视觉语言模型InternVL2

InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异，同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口，能够处理长文本、多图像和视频输入，在开源多模态模型中具有竞争力。

distilbart-xsum-12-6 - 优化轻量级文本摘要模型提高效率降低资源消耗

Github开源项目自然语言处理模型模型压缩Huggingface文本摘要推理性能DistilBART

distilbart-xsum-12-6是一款经过优化的文本摘要模型。与BART基线模型相比，它在保持相似Rouge评分的同时，大幅减少了参数量和推理时间。模型仅使用306MM参数，推理速度提升1.68倍，Rouge-2和Rouge-L分数分别达到22.12和36.99。该模型基于CNN/DailyMail和XSum数据集训练，适合需要高效处理的文本摘要任务。

相关文章

Article Cover

SwiftInfer：高效的AI推理与服务框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号