#推理性能
SwiftInfer - AI 推理和服务
Github开源项目TensorRT-LLMSwiftInferStreaming-LLM长文本模型推理性能
SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术,提升长文本输入处理的有效性。借助 Attention Sink 技术,避免模型在注意力窗口变动时发生故障,确保在生产环境中的高效运行,非常适合对推理效率和稳定性要求高的大模型应用。
InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力
Github开源项目模型Huggingface指令微调多模态大语言模型推理性能视觉语言模型InternVL2
InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异,同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口,能够处理长文本、多图像和视频输入,在开源多模态模型中具有竞争力。
distilbart-xsum-12-6 - 优化轻量级文本摘要模型 提高效率降低资源消耗
Github开源项目自然语言处理模型模型压缩Huggingface文本摘要推理性能DistilBART
distilbart-xsum-12-6是一款经过优化的文本摘要模型。与BART基线模型相比,它在保持相似Rouge评分的同时,大幅减少了参数量和推理时间。模型仅使用306MM参数,推理速度提升1.68倍,Rouge-2和Rouge-L分数分别达到22.12和36.99。该模型基于CNN/DailyMail和XSum数据集训练,适合需要高效处理的文本摘要任务。