#多模态学习

ludwig - 高效可扩展的低代码深度学习框架

Ludwig深度学习AI模型自定义模型多模态学习Github开源项目热门

Ludwig是一个低代码深度学习框架，用于构建定制的人工智能模型，如LLMs和其他深度神经网络。它支持多任务和多模态学习，优化了批量大小选择，分布式训练和模型微调，确保高效处理大规模数据集。Ludwig的模块化设计允许用户轻松实验不同的模型架构，支持超参数优化和丰富的度量可视化，适用于生产环境，并整合了Docker和Ray等工具，支持模型导出到Torchscript和Triton，一键上传至HuggingFace。

知我AI - 个人知识管理及信息快速提取平台

办公工具AI工具知我AI知识管理多模态学习内容提取AI辅助阅读AI办公热门

知我AI, 高效的智能阅读与知识管理工具，为用户提供跨设备的信息同步，智能分析并快速提炼重要知识点，支持音视频和文本信息，便于专业人士和学者有效管理和检索知识资源，节省时间并提高学习与工作效率。

Awesome-Transformer-Attention - 视觉变换器与注意力机制的最新研究进展

Vision Transformer深度学习多模态学习Transformer注意力机制Github开源项目

探索视觉变换器和注意力机制的最新发展，包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用，发现创新思路。

Awesome-Multimodal-LLM - 大语言模型（LLM）在多模态学习中的最新研究趋势

LLM多模态学习神经网络模型微调开源Github开源项目

本页面介绍大语言模型（LLM）在多模态学习中的最新研究趋势，包括文本、视觉（图像和视频）、音频等多种模态。重点讨论如LLaMA、Alpaca和Bloom等开源且适合研究的LLM骨干模型及其学习方法，如全量微调、参数有效微调、上下文学习等。同时列举了具体的多模态LLM模型实例，如OpenFlamingo和MiniGPT-4，以及评估方法，如MultiInstruct和POPE，提供科研人员了解和研究LLM引导多模态学习的资源。

XPretrain - 涵盖视频语言和图像语言模型的多模态学习与预训练研究

XPretrain多模态学习预训练视频与语言图像与语言Github开源项目

Microsoft Research MSM组在多模态学习和预训练方法上的最新研究成果，包含用于视频语言的HD-VILA-100M数据集，以及HD-VILA、LF-VILA、CLIP-ViP等预训练模型，和用于图像语言的Pixel-BERT、SOHO、VisualParsing模型。这些研究发表在CVPR、NeurIPS和ICLR等顶级会议，代码和数据集已公开，社区成员可以贡献和提出建议。

pykale - 改进多模态机器学习的高效绿色解决方案

PyKale多模态学习迁移学习深度学习机器学习Github开源项目

PyKale通过简化数据、软件和用户之间的连接，使跨学科研究的机器学习更容易访问。它专注于多模态学习和迁移学习，支持图像、视频和图形的数据类型，涵盖深度学习和降维模型。PyKale遵循绿色机器学习理念，通过减少重复、再利用资源和回收学习模型，实现高效和可持续的研究。适用于生物信息学、图像和视频识别及医学成像，利用多源知识做出准确且可解释的预测。

mmpretrain - 支持多种模型与大规模训练配置的PyTorch开源预训练工具箱

OpenMMLabMMPreTrainPyTorch预训练工具箱多模态学习Github开源项目

MMPreTrain是基于PyTorch的开源预训练工具箱，提供丰富的训练策略和高效的模型分析工具。支持多种主干网络和预训练模型，如VGG、ResNet、Vision-Transformer等。具备强大的扩展性和高效性，适用于图像分类、图像描述、视觉问答等多种推理任务。最新版本v1.2.0增加了对LLaVA 1.5和RAM的支持，并提供Gradio界面。适用于多模态学习和自监督学习，支持大规模训练配置。提供详细的安装和教程文档，帮助用户快速入门。

EVA - 推进大规模视觉表示学习的前沿

EVA视觉表示CLIP自监督学习多模态学习Github开源项目

EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目，如EVA-01和EVA-CLIP，致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供，为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。

CLAP - 音频与文本的对比学习预训练模型

CLAP音频处理机器学习预训练模型多模态学习Github开源项目

CLAP是一个音频-文本对比学习预训练模型，可提取音频和文本的潜在表示。它基于CLIP架构设计，通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库，支持从音频文件或数据中直接提取特征。

MoE-LLaVA - 高效视觉语言模型的新方向

MoE-LLaVA大视觉语言模型多模态学习稀疏激活性能表现Github开源项目

MoE-LLaVA项目采用混合专家技术,实现了高效的大规模视觉语言模型。该模型仅使用3B稀疏激活参数就达到了与7B参数模型相当的性能,在多项视觉理解任务中表现优异。项目提供简单的基线方法,通过稀疏路径学习多模态交互,可在8张A100 GPU上1天内完成训练。MoE-LLaVA为构建高性能、低参数量的视觉语言模型探索了新的方向。

MetaTransformer - 统一12种模态的多模态学习框架

Meta-Transformer多模态学习人工智能深度学习计算机视觉Github开源项目

Meta-Transformer是一个创新的多模态学习框架，可处理12种不同模态的数据，包括自然语言、图像、点云和音频等。该框架采用共享编码器架构和数据到序列转换方法，支持分类、检测和分割等多种任务。项目提供开源预训练模型和代码实现，为多模态AI研究提供了有力支持。

KG-MM-Survey - 知识图谱与多模态学习融合研究综述

知识图谱多模态学习视觉问答知识融合深度学习Github开源项目

本项目汇总了知识图谱与多模态学习融合研究的相关论文,主要包括知识图谱驱动的多模态学习(KG4MM)和多模态知识图谱(MM4KG)两个方向。KG4MM探讨知识图谱对多模态任务的支持,MM4KG研究多模态技术在知识图谱领域的应用。项目覆盖理解推理、分类、生成、检索等多种任务,提供了详细的文献列表和资源。这是一份系统全面的知识图谱与多模态学习交叉领域研究综述。

MotionLLM - 融合视频和动作数据的人类行为理解先进AI模型

MotionLLM人工智能人类行为理解多模态学习大语言模型Github开源项目

MotionLLM是一个人类行为理解框架，通过融合视频和动作序列数据来分析人类行为。该项目采用统一的视频-动作训练策略，结合粗粒度视频-文本和细粒度动作-文本数据，以获得深入的时空洞察。项目还包括MoVid数据集和MoVid-Bench评估工具，用于研究和评估人类行为理解。MotionLLM在行为描述、时空理解和推理方面展现出优越性能，为人机交互和行为分析研究提供了新的方向。

awesome-multimodal-in-medical-imaging - 医学影像多模态学习应用资源集锦

医学影像多模态学习报告生成视觉问答视觉语言模型Github开源项目

该项目汇集医学影像多模态学习应用资源，涵盖数据集、综述、报告生成、视觉问答和视觉语言模型等。内容包括大语言模型相关论文，并提供最新论文和代码链接。资源库定期更新，收录超过100篇高质量论文，为医学影像多模态研究提供重要参考。

Awesome-LLM4Graph-Papers - 大型语言模型与图学习的融合：前沿研究进展

LLM图学习自然语言处理图神经网络多模态学习Github开源项目

该项目汇集大型语言模型(LLM)在图学习领域的最新论文和资源,将相关方法分为GNN前缀、LLM前缀、LLM-图集成和纯LLM四大类。项目提供详细分类说明和可视化图表,助力研究人员快速把握领域动态。内容定期更新,欢迎社区贡献,是LLM与图学习交叉研究的重要参考。

layoutlm-large-uncased - 微软开发的多模态文档理解大型预训练模型

Huggingface模型多模态学习Github预训练模型信息提取开源项目文档理解LayoutLM

LayoutLM-large-uncased是微软开发的大型多模态文档理解预训练模型。该模型融合文本、版面布局和图像信息，在表单和收据理解等文档AI任务中表现出色。模型架构包括24层、1024隐藏单元、16个注意力头，总计3.43亿参数。经过1100万份文档的2轮预训练，LayoutLM为文档图像理解和信息提取任务提供了高效解决方案。

metaclip-h14-fullcc2.5b - 大规模视觉语言模型基于25亿CommonCrawl数据训练

零样本分类模型计算机视觉MetaCLIP多模态学习GithubHuggingface开源项目自然语言处理

MetaCLIP是一个基于25亿CommonCrawl数据点训练的大规模视觉语言模型。该模型由Xu等人在《Demystifying CLIP Data》论文中提出，旨在解析CLIP的数据准备流程。MetaCLIP支持图像与文本的联合嵌入，可应用于零样本图像分类、文本图像检索等任务。作为一个开源项目，MetaCLIP为研究人员提供了探索大规模视觉语言模型的新方向，有助于推进计算机视觉和自然语言处理领域的发展。

MoE-LLaVA-Phi2-2.7B-4e - MoE-LLaVA模型应用专家混合系统提升视觉语言能力

视觉语言模型MoE-LLaVAHuggingface模型深度学习多模态学习Github开源项目混合专家系统

MoE-LLaVA是一个采用专家混合架构的视觉语言模型。该模型使用3B稀疏激活参数，性能与LLaVA-1.5-7B相当，在部分任务上超越LLaVA-1.5-13B。MoE-LLaVA可在8张V100 GPU上2天内完成训练，并在多项视觉理解基准测试中表现优异。这一创新为多模态AI领域提供了新的研究方向。

align-base - 视觉语言对齐模型实现高效零样本图像分类

计算机视觉Github模型图像识别COYO-700M多模态学习Huggingface开源项目ALIGN

ALIGN采用EfficientNet和BERT构建双编码器架构，结合对比学习技术实现视觉与文本表示对齐。基于COYO-700M数据集训练的模型具备零样本图像分类和多模态嵌入检索能力，其性能表现达到甚至超越了Google原始ALIGN模型的水平，是一个公开可用的视觉语言对齐工具。

相关文章

Article Cover

Awesome-Transformer-Attention: 视觉Transformer和注意力机制的全面综述

Article Cover

多模态大语言模型研究进展综述

Article Cover

MMPretrain: OpenMMLab强大的预训练工具箱与基准

Article Cover

PyKale: 知识感知的跨领域机器学习工具包

Article Cover

CLAP: 开启音频理解新篇章的对比语言-音频预训练模型

Article Cover

MoE-LLaVA: 使用专家混合模型提升大型视觉语言模型性能

Article Cover

Meta-Transformer:一个统一的多模态学习框架

Article Cover

知识图谱与多模态学习的融合:KG-MM-Survey项目综述

Article Cover

MotionLLM: 理解人类行为的多模态大语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号