#多模态大模型

Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

2 个月前
Cover of Swift - 大模型训练推理全流程框架 - 支持300+LLM和80+MLLM

PaddleMIX:飞桨多模态大模型开发套件

3 个月前
Cover of PaddleMIX:飞桨多模态大模型开发套件

PixelLM: 像素级推理与理解的革命性大型多模态模型

3 个月前
Cover of PixelLM: 像素级推理与理解的革命性大型多模态模型

VisCPM: 基于CPM的中英双语多模态大模型

3 个月前
Cover of VisCPM: 基于CPM的中英双语多模态大模型
相关项目
Project Cover

swift

SWIFT平台支持超过300种大型语言模型与50多种多模态模型的训练、微调和部署。提供NEFTune、LoRA+、LLaMA-PRO等先进的训练技术及适配器库,针对各种研发和生产环境。同时,平台提供Gradio web-ui及深度学习课程助力初学者快速上手。

Project Cover

tr

tr是一款离线OCR文本识别SDK,核心采用C++开发并提供Python接口,支持多行文本识别和多模态大模型集成。tr结合CRNN与TransformerEncoder,提供高效且资源占用低的OCR解决方案,适用于如弯曲文本和图表等复杂场景。最新版本优化了C++接口、支持Python2、多线程功能,并去除了对opencv-python和Pillow的依赖。提供简洁的下载与安装指引,及详细的示例代码便于快速部署和测试。

Project Cover

VisCPM

VisCPM是基于CPM-Bee语言模型开发的开源多模态大模型系列,包含VisCPM-Chat和VisCPM-Paint两个模型。VisCPM-Chat支持中英双语多模态对话,VisCPM-Paint实现文到图生成。该项目仅通过英文数据预训练即实现了出色的中文多模态能力,在中文开源多模态模型中表现优异。VisCPM开源供个人和研究使用,旨在促进多模态大模型领域进步。

Project Cover

PixelLM

PixelLM是一种创新的大型多模态模型,专注于像素级推理和理解。它能处理开放集目标和复杂推理任务,同时保持LMM的基本结构。通过轻量级像素解码器和分割码本,PixelLM实现高效mask生成。项目同时推出MUSE数据集,为多目标推理分割研究提供高质量基准。在多个基准测试中,PixelLM展现出优越性能。

Project Cover

PaddleMIX

PaddleMIX是基于飞桨的多模态大模型开发套件,支持图像、文本、视频等多种模态,覆盖视觉语言预训练、文生图、文生视频等任务。该套件提供开箱即用的开发体验,支持千亿规模模型训练,适用于金融、教育、电商、医疗等多个领域。PaddleMIX 2.0版本新增了LLaVA、Qwen-VL等模型,优化了训练效率,并提供了丰富的应用工具和流水线,为开发者提供全面的多模态AI解决方案。

Project Cover

Llama-3-VILA1.5-8B

Llama-3-VILA1.5-8B是一款基于大规模交错图像-文本数据预训练的视觉语言模型。该模型具备多图像推理、情境学习和视觉思维链等功能,可部署于边缘设备。在12个基准测试中,包括5个学术视觉问答和7个指令跟随测试,Llama-3-VILA1.5-8B展现了优秀性能。这一模型为研究人员和AI爱好者提供了进行大型多模态模型和聊天机器人研究的有力工具。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号