#多模态大模型

swift - 轻量级基础架构，专为深度学习开发者打造的训练与推理框架

Github开源项目深度学习在线工具SWIFT模型培训多模态大模型

SWIFT平台支持超过300种大型语言模型与50多种多模态模型的训练、微调和部署。提供NEFTune、LoRA+、LLaMA-PRO等先进的训练技术及适配器库，针对各种研发和生产环境。同时，平台提供Gradio web-ui及深度学习课程助力初学者快速上手。

tr - 高效的离线OCR文本识别与文档理解SDK

Github开源项目OCRTransformerCRNN多模态大模型tr

tr是一款离线OCR文本识别SDK，核心采用C++开发并提供Python接口，支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder，提供高效且资源占用低的OCR解决方案，适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能，并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引，及详细的示例代码便于快速部署和测试。

VisCPM - 基于CPM-Bee的多模态大模型对话和图像生成

Github开源项目开源多模态大模型中英双语VisCPMCPM-Bee

VisCPM是基于CPM-Bee语言模型开发的开源多模态大模型系列,包含VisCPM-Chat和VisCPM-Paint两个模型。VisCPM-Chat支持中英双语多模态对话,VisCPM-Paint实现文到图生成。该项目仅通过英文数据预训练即实现了出色的中文多模态能力,在中文开源多模态模型中表现优异。VisCPM开源供个人和研究使用,旨在促进多模态大模型领域进步。

PixelLM - 像素级推理与理解的大型多模态模型

Github开源项目图像分割多模态大模型PixelLM像素级推理MUSE数据集

PixelLM是一种创新的大型多模态模型，专注于像素级推理和理解。它能处理开放集目标和复杂推理任务，同时保持LMM的基本结构。通过轻量级像素解码器和分割码本，PixelLM实现高效mask生成。项目同时推出MUSE数据集，为多目标推理分割研究提供高质量基准。在多个基准测试中，PixelLM展现出优越性能。

PaddleMIX - 基于飞桨的多模态大模型开发套件赋能AI创新应用

Github开源项目多模态大模型文生图PaddleMIX图文预训练跨模态视觉

PaddleMIX是基于飞桨的多模态大模型开发套件，支持图像、文本、视频等多种模态，覆盖视觉语言预训练、文生图、文生视频等任务。该套件提供开箱即用的开发体验，支持千亿规模模型训练，适用于金融、教育、电商、医疗等多个领域。PaddleMIX 2.0版本新增了LLaVA、Qwen-VL等模型，优化了训练效率，并提供了丰富的应用工具和流水线，为开发者提供全面的多模态AI解决方案。

Llama-3-VILA1.5-8B - 视觉语言模型支持多图像推理和边缘计算

Github开源项目模型Huggingface多模态大模型边缘计算视觉语言模型VILA图文理解

Llama-3-VILA1.5-8B是一款基于大规模交错图像-文本数据预训练的视觉语言模型。该模型具备多图像推理、情境学习和视觉思维链等功能,可部署于边缘设备。在12个基准测试中,包括5个学术视觉问答和7个指令跟随测试,Llama-3-VILA1.5-8B展现了优秀性能。这一模型为研究人员和AI爱好者提供了进行大型多模态模型和聊天机器人研究的有力工具。

相关文章

Article Cover

VisCPM: 基于CPM的中英双语多模态大模型

Article Cover

PixelLM: 像素级推理与理解的革命性大型多模态模型

Article Cover

PaddleMIX:飞桨多模态大模型开发套件

Article Cover

Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号