Logo

#多模态大模型

Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

1 个月前
Cover of Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

PixelLM: 像素级推理与理解的革命性大型多模态模型

2 个月前
Cover of PixelLM: 像素级推理与理解的革命性大型多模态模型

PaddleMIX:飞桨多模态大模型开发套件

2 个月前
Cover of PaddleMIX:飞桨多模态大模型开发套件

VisCPM: 基于CPM的中英双语多模态大模型

2 个月前
Cover of VisCPM: 基于CPM的中英双语多模态大模型

相关项目

Project Cover
swift
SWIFT平台支持超过300种大型语言模型与50多种多模态模型的训练、微调和部署。提供NEFTune、LoRA+、LLaMA-PRO等先进的训练技术及适配器库,针对各种研发和生产环境。同时,平台提供Gradio web-ui及深度学习课程助力初学者快速上手。
Project Cover
tr
tr是一款离线OCR文本识别SDK,核心采用C++开发并提供Python接口,支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder,提供高效且资源占用低的OCR解决方案,适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能,并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引,及详细的示例代码便于快速部署和测试。
Project Cover
VisCPM
VisCPM是基于CPM-Bee语言模型开发的开源多模态大模型系列,包含VisCPM-Chat和VisCPM-Paint两个模型。VisCPM-Chat支持中英双语多模态对话,VisCPM-Paint实现文到图生成。该项目仅通过英文数据预训练即实现了出色的中文多模态能力,在中文开源多模态模型中表现优异。VisCPM开源供个人和研究使用,旨在促进多模态大模型领域进步。
Project Cover
PixelLM
PixelLM是一种创新的大型多模态模型,专注于像素级推理和理解。它能处理开放集目标和复杂推理任务,同时保持LMM的基本结构。通过轻量级像素解码器和分割码本,PixelLM实现高效mask生成。项目同时推出MUSE数据集,为多目标推理分割研究提供高质量基准。在多个基准测试中,PixelLM展现出优越性能。
Project Cover
PaddleMIX
PaddleMIX是基于飞桨的多模态大模型开发套件,支持图像、文本、视频等多种模态,覆盖视觉语言预训练、文生图、文生视频等任务。该套件提供开箱即用的开发体验,支持千亿规模模型训练,适用于金融、教育、电商、医疗等多个领域。PaddleMIX 2.0版本新增了LLaVA、Qwen-VL等模型,优化了训练效率,并提供了丰富的应用工具和流水线,为开发者提供全面的多模态AI解决方案。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号