#多模态大模型

Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

2 个月前

SWIFT 模型培训多模态大模型深度学习在线工具 Github 开源项目

2 个月前

PaddleMIX:飞桨多模态大模型开发套件

3 个月前

PaddleMIX 多模态大模型图文预训练文生图跨模态视觉 Github 开源项目

3 个月前

PixelLM: 像素级推理与理解的革命性大型多模态模型

3 个月前

PixelLM 多模态大模型像素级推理 MUSE数据集图像分割 Github 开源项目

3 个月前

VisCPM: 基于CPM的中英双语多模态大模型

3 个月前

VisCPM 多模态大模型 CPM-Bee 中英双语开源 Github 开源项目

3 个月前

相关项目

swift

SWIFT平台支持超过300种大型语言模型与50多种多模态模型的训练、微调和部署。提供NEFTune、LoRA+、LLaMA-PRO等先进的训练技术及适配器库，针对各种研发和生产环境。同时，平台提供Gradio web-ui及深度学习课程助力初学者快速上手。

tr是一款离线OCR文本识别SDK，核心采用C++开发并提供Python接口，支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder，提供高效且资源占用低的OCR解决方案，适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能，并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引，及详细的示例代码便于快速部署和测试。

VisCPM

VisCPM是基于CPM-Bee语言模型开发的开源多模态大模型系列,包含VisCPM-Chat和VisCPM-Paint两个模型。VisCPM-Chat支持中英双语多模态对话,VisCPM-Paint实现文到图生成。该项目仅通过英文数据预训练即实现了出色的中文多模态能力,在中文开源多模态模型中表现优异。VisCPM开源供个人和研究使用,旨在促进多模态大模型领域进步。

PixelLM

PixelLM是一种创新的大型多模态模型，专注于像素级推理和理解。它能处理开放集目标和复杂推理任务，同时保持LMM的基本结构。通过轻量级像素解码器和分割码本，PixelLM实现高效mask生成。项目同时推出MUSE数据集，为多目标推理分割研究提供高质量基准。在多个基准测试中，PixelLM展现出优越性能。

PaddleMIX

PaddleMIX是基于飞桨的多模态大模型开发套件，支持图像、文本、视频等多种模态，覆盖视觉语言预训练、文生图、文生视频等任务。该套件提供开箱即用的开发体验，支持千亿规模模型训练，适用于金融、教育、电商、医疗等多个领域。PaddleMIX 2.0版本新增了LLaVA、Qwen-VL等模型，优化了训练效率，并提供了丰富的应用工具和流水线，为开发者提供全面的多模态AI解决方案。

Llama-3-VILA1.5-8B

Llama-3-VILA1.5-8B是一款基于大规模交错图像-文本数据预训练的视觉语言模型。该模型具备多图像推理、情境学习和视觉思维链等功能,可部署于边缘设备。在12个基准测试中,包括5个学术视觉问答和7个指令跟随测试,Llama-3-VILA1.5-8B展现了优秀性能。这一模型为研究人员和AI爱好者提供了进行大型多模态模型和聊天机器人研究的有力工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com