PaddleMIX

基于飞桨的多模态大模型开发套件赋能AI创新应用

PaddleMIX 多模态大模型图文预训练文生图跨模态视觉 Github 开源项目

PaddleMIX是基于飞桨的多模态大模型开发套件，支持图像、文本、视频等多种模态，覆盖视觉语言预训练、文生图、文生视频等任务。该套件提供开箱即用的开发体验，支持千亿规模模型训练，适用于金融、教育、电商、医疗等多个领域。PaddleMIX 2.0版本新增了LLaVA、Qwen-VL等模型，优化了训练效率，并提供了丰富的应用工具和流水线，为开发者提供全面的多模态AI解决方案。

访问官网

Github

介绍相关项目

简介

PaddleMIX是基于飞桨的多模态大模型开发套件，整合了图像、文本、视频等多种模态，涵盖视觉语言预训练、文生图、文生视频等丰富的多模态任务。它提供开箱即用的开发体验，同时满足开发者灵活定制的需求，探索通用人工智能。

最新进展

📚《飞桨多模态大模型开发套件PaddleMIX 2.0震撼发布》，全面覆盖图文音视频场景，高效助力多模态产业创新。支持超大规模训练，涵盖图文预训练、文生图、跨模态视觉任务，适用于金融、教育、电商、医疗等产业场景。8月8日（周四）20:00将直播介绍多模态大模型最新架构，深入解析PaddleMIX高性能模型库，并手把手演示LLaVA模型的训练推理全流程。报名链接

2024.07.25 发布PaddleMIX v2.0

多模态理解：新增LLaVA系列、Qwen-VL等模型；新增Auto模块统一SFT训练流程；新增mixtoken训练策略，SFT吞吐量提升5.6倍。
多模态生成：发布PPDiffusers 0.24.1版本，支持视频生成能力，文生图模型新增LCM。新增飞桨版peft，accelerate后端。提供基于飞桨开发的ComfyUI插件。
多模态数据处理工具箱DataCopilot：支持自定义数据结构、数据转换、离线格式检查；支持基本的统计信息和数据可视化功能。 2023年10月7日发布 PaddleMIX v1.0
新增图文预训练模型分布式训练能力，BLIP-2支持千亿规模训练
新增跨模态应用流水线AppFlow，一键支持自动标注、图像编辑、音生图等11种跨模态应用
PPDiffusers发布0.19.3版本，新增SDXL及相关任务

主要特性

丰富的多模态功能: 覆盖图文预训练、文生图、跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能
简洁的开发体验: 模型统一开发接口，高效实现自定义模型开发和功能实现
高效的训练推理流程: 全量模型打通训练推理一站式开发流程，BLIP-2、Stable Diffusion等重点模型训练推理性能业界领先
超大规模训练支持: 可训练千亿规模图文预训练模型，百亿规模文生图底座模型

任务展示

视频演示（video Demo）

https://github.com/PaddlePaddle/PaddleMIX/assets/29787866/8d32722a-e307-46cb-a8c0-be8acd93d2c8

安装

环境依赖

pip install -r requirements.txt

关于PaddlePaddle安装的详细教程请查看安装指南。

注：ppdiffusers部分模型需要依赖 CUDA 11.2 及以上版本，如果本地机器不符合要求，建议前往 AI Studio 进行模型训练、推理任务。

如果希望使用bf16训练推理，请使用支持bf16的GPU，如A100。

手动安装

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX
pip install -e .

#ppdiffusers 安装
cd ppdiffusers
pip install -e .

教程

特色应用

ComfyUI创作工作流

体验专区: https://aistudio.baidu.com/community/app/106043

艺术风格二维码模型

体验专区: https://aistudio.baidu.com/community/app/1339

Mix叠图

体验专区：https://aistudio.baidu.com/community/app/1340

模型库

多模态预训练

扩散类模型

图文预训练

开放世界视觉模型

更多模态预训练模型

ImageBind

文生图

文生视频

音频生成

更多模型能力，可参考模型能力矩阵

社区交流

Scan the QR code with WeChat and fill out the questionnaire to join the communication group for in-depth discussions with numerous community developers and the official team.

许可证

本项目根据Apache 2.0许可证发布。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号