#多模态学习
ludwig - 高效可扩展的低代码深度学习框架
Ludwig深度学习AI模型自定义模型多模态学习Github开源项目热门
Ludwig是一个低代码深度学习框架,用于构建定制的人工智能模型,如LLMs和其他深度神经网络。它支持多任务和多模态学习,优化了批量大小选择,分布式训练和模型微调,确保高效处理大规模数据集。Ludwig的模块化设计允许用户轻松实验不同的模型架构,支持超参数优化和丰富的度量可视化,适用于生产环境,并整合了Docker和Ray等工具,支持模型导出到Torchscript和Triton,一键上传至HuggingFace。
知我AI - 个人知识管理及信息快速提取平台
办公工具AI工具知我AI知识管理多模态学习内容提取AI辅助阅读AI办公热门
知我AI, 高效的智能阅读与知识管理工具,为用户提供跨设备的信息同步,智能分析并快速提炼重要知识点,支持音视频和文本信息,便于专业人士和学者有效管理和检索知识资源,节省时间并提高学习与工作效率。
Awesome-Transformer-Attention - 视觉变换器与注意力机制的最新研究进展
Vision Transformer深度学习多模态学习Transformer注意力机制Github开源项目
探索视觉变换器和注意力机制的最新发展,包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用,发现创新思路。
Awesome-Multimodal-LLM - 大语言模型(LLM)在多模态学习中的最新研究趋势
LLM多模态学习神经网络模型微调开源Github开源项目
本页面介绍大语言模型(LLM)在多模态学习中的最新研究趋势,包括文本、视觉(图像和视频)、音频等多种模态。重点讨论如LLaMA、Alpaca和Bloom等开源且适合研究的LLM骨干模型及其学习方法,如全量微调、参数有效微调、上下文学习等。同时列举了具体的多模态LLM模型实例,如OpenFlamingo和MiniGPT-4,以及评估方法,如MultiInstruct和POPE,提供科研人员了解和研究LLM引导多模态学习的资源。
XPretrain - 涵盖视频语言和图像语言模型的多模态学习与预训练研究
XPretrain多模态学习预训练视频与语言图像与语言Github开源项目
Microsoft Research MSM组在多模态学习和预训练方法上的最新研究成果,包含用于视频语言的HD-VILA-100M数据集,以及HD-VILA、LF-VILA、CLIP-ViP等预训练模型,和用于图像语言的Pixel-BERT、SOHO、VisualParsing模型。这些研究发表在CVPR、NeurIPS和ICLR等顶级会议,代码和数据集已公开,社区成员可以贡献和提出建议。
pykale - 改进多模态机器学习的高效绿色解决方案
PyKale多模态学习迁移学习深度学习机器学习Github开源项目
PyKale通过简化数据、软件和用户之间的连接,使跨学科研究的机器学习更容易访问。它专注于多模态学习和迁移学习,支持图像、视频和图形的数据类型,涵盖深度学习和降维模型。PyKale遵循绿色机器学习理念,通过减少重复、再利用资源和回收学习模型,实现高效和可持续的研究。适用于生物信息学、图像和视频识别及医学成像,利用多源知识做出准确且可解释的预测。
mmpretrain - 支持多种模型与大规模训练配置的PyTorch开源预训练工具箱
OpenMMLabMMPreTrainPyTorch预训练工具箱多模态学习Github开源项目
MMPreTrain是基于PyTorch的开源预训练工具箱,提供丰富的训练策略和高效的模型分析工具。支持多种主干网络和预训练模型,如VGG、ResNet、Vision-Transformer等。具备强大的扩展性和高效性,适用于图像分类、图像描述、视觉问答等多种推理任务。最新版本v1.2.0增加了对LLaVA 1.5和RAM的支持,并提供Gradio界面。适用于多模态学习和自监督学习,支持大规模训练配置。提供详细的安装和教程文档,帮助用户快速入门。
EVA - 推进大规模视觉表示学习的前沿
EVA视觉表示CLIP自监督学习多模态学习Github开源项目
EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目,如EVA-01和EVA-CLIP,致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供,为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。
CLAP - 音频与文本的对比学习预训练模型
CLAP音频处理机器学习预训练模型多模态学习Github开源项目
CLAP是一个音频-文本对比学习预训练模型,可提取音频和文本的潜在表示。它基于CLIP架构设计,通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库,支持从音频文件或数据中直接提取特征。
MoE-LLaVA - 高效视觉语言模型的新方向
MoE-LLaVA大视觉语言模型多模态学习稀疏激活性能表现Github开源项目
MoE-LLaVA项目采用混合专家技术,实现了高效的大规模视觉语言模型。该模型仅使用3B稀疏激活参数就达到了与7B参数模型相当的性能,在多项视觉理解任务中表现优异。项目提供简单的基线方法,通过稀疏路径学习多模态交互,可在8张A100 GPU上1天内完成训练。MoE-LLaVA为构建高性能、低参数量的视觉语言模型探索了新的方向。
MetaTransformer - 统一12种模态的多模态学习框架
Meta-Transformer多模态学习人工智能深度学习计算机视觉Github开源项目
Meta-Transformer是一个创新的多模态学习框架,可处理12种不同模态的数据,包括自然语言、图像、点云和音频等。该框架采用共享编码器架构和数据到序列转换方法,支持分类、检测和分割等多种任务。项目提供开源预训练模型和代码实现,为多模态AI研究提供了有力支持。
KG-MM-Survey - 知识图谱与多模态学习融合研究综述
知识图谱多模态学习视觉问答知识融合深度学习Github开源项目
本项目汇总了知识图谱与多模态学习融合研究的相关论文,主要包括知识图谱驱动的多模态学习(KG4MM)和多模态知识图谱(MM4KG)两个方向。KG4MM探讨知识图谱对多模态任务的支持,MM4KG研究多模态技术在知识图谱领域的应用。项目覆盖理解推理、分类、生成、检索等多种任务,提供了详细的文献列表和资源。这是一份系统全面的知识图谱与多模态学习交叉领域研究综述。
MotionLLM - 融合视频和动作数据的人类行为理解先进AI模型
MotionLLM人工智能人类行为理解多模态学习大语言模型Github开源项目
MotionLLM是一个人类行为理解框架,通过融合视频和动作序列数据来分析人类行为。该项目采用统一的视频-动作训练策略,结合粗粒度视频-文本和细粒度动作-文本数据,以获得深入的时空洞察。项目还包括MoVid数据集和MoVid-Bench评估工具,用于研究和评估人类行为理解。MotionLLM在行为描述、时空理解和推理方面展现出优越性能,为人机交互和行为分析研究提供了新的方向。
awesome-multimodal-in-medical-imaging - 医学影像多模态学习应用资源集锦
医学影像多模态学习报告生成视觉问答视觉语言模型Github开源项目
该项目汇集医学影像多模态学习应用资源,涵盖数据集、综述、报告生成、视觉问答和视觉语言模型等。内容包括大语言模型相关论文,并提供最新论文和代码链接。资源库定期更新,收录超过100篇高质量论文,为医学影像多模态研究提供重要参考。
Awesome-LLM4Graph-Papers - 大型语言模型与图学习的融合:前沿研究进展
LLM图学习自然语言处理图神经网络多模态学习Github开源项目
该项目汇集大型语言模型(LLM)在图学习领域的最新论文和资源,将相关方法分为GNN前缀、LLM前缀、LLM-图集成和纯LLM四大类。项目提供详细分类说明和可视化图表,助力研究人员快速把握领域动态。内容定期更新,欢迎社区贡献,是LLM与图学习交叉研究的重要参考。
blip-image-captioning-large - BLIP框架驱动的先进图像描述模型
模型Huggingface多模态学习Github开源项目图像描述视觉语言预训练BLIP自然语言处理
blip-image-captioning-large是基于BLIP框架的图像描述模型,采用ViT大型骨干网络和COCO数据集预训练。它支持条件和无条件图像描述,在图像-文本检索、图像描述和视觉问答等任务中表现卓越。该模型具有出色的泛化能力,支持CPU和GPU(含半精度)推理,为图像理解和生成研究提供了有力工具。
clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类
音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类
CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。
BiomedVLP-CXR-BERT-specialized - 胸部X光领域专用语言模型 优化生物医学视觉语言处理
Huggingface胸部X光模型医疗影像多模态学习GithubCXR-BERT开源项目自然语言处理
BiomedVLP-CXR-BERT-specialized是专为胸部X光领域开发的语言模型。通过优化词汇表、创新预训练方法、权重正则化和文本增强技术,该模型在放射学自然语言推理和掩码语言模型预测等任务中表现优异。它还能应用于零样本短语定位和图像分类等视觉-语言处理任务。此外,该模型与ResNet-50图像模型联合训练,可用于短语定位。作为生物医学视觉-语言处理研究的重要工具,BiomedVLP-CXR-BERT-specialized为相关领域提供了新的可能性。
layoutlm-large-uncased - 微软开发的多模态文档理解大型预训练模型
Huggingface模型多模态学习Github预训练模型信息提取开源项目文档理解LayoutLM
LayoutLM-large-uncased是微软开发的大型多模态文档理解预训练模型。该模型融合文本、版面布局和图像信息,在表单和收据理解等文档AI任务中表现出色。模型架构包括24层、1024隐藏单元、16个注意力头,总计3.43亿参数。经过1100万份文档的2轮预训练,LayoutLM为文档图像理解和信息提取任务提供了高效解决方案。
metaclip-h14-fullcc2.5b - 大规模视觉语言模型基于25亿CommonCrawl数据训练
零样本分类模型计算机视觉MetaCLIP多模态学习GithubHuggingface开源项目自然语言处理
MetaCLIP是一个基于25亿CommonCrawl数据点训练的大规模视觉语言模型。该模型由Xu等人在《Demystifying CLIP Data》论文中提出,旨在解析CLIP的数据准备流程。MetaCLIP支持图像与文本的联合嵌入,可应用于零样本图像分类、文本图像检索等任务。作为一个开源项目,MetaCLIP为研究人员提供了探索大规模视觉语言模型的新方向,有助于推进计算机视觉和自然语言处理领域的发展。
MoE-LLaVA-Phi2-2.7B-4e - MoE-LLaVA模型应用专家混合系统提升视觉语言能力
视觉语言模型MoE-LLaVAHuggingface模型深度学习多模态学习Github开源项目混合专家系统
MoE-LLaVA是一个采用专家混合架构的视觉语言模型。该模型使用3B稀疏激活参数,性能与LLaVA-1.5-7B相当,在部分任务上超越LLaVA-1.5-13B。MoE-LLaVA可在8张V100 GPU上2天内完成训练,并在多项视觉理解基准测试中表现优异。这一创新为多模态AI领域提供了新的研究方向。
align-base - 视觉语言对齐模型实现高效零样本图像分类
计算机视觉Github模型图像识别COYO-700M多模态学习Huggingface开源项目ALIGN
ALIGN采用EfficientNet和BERT构建双编码器架构,结合对比学习技术实现视觉与文本表示对齐。基于COYO-700M数据集训练的模型具备零样本图像分类和多模态嵌入检索能力,其性能表现达到甚至超越了Google原始ALIGN模型的水平,是一个公开可用的视觉语言对齐工具。
相关文章
Awesome-Transformer-Attention: 视觉Transformer和注意力机制的全面综述
2024年08月30日
多模态大语言模型研究进展综述
2024年08月31日
MMPretrain: OpenMMLab强大的预训练工具箱与基准
2024年09月04日
PyKale: 知识感知的跨领域机器学习工具包
2024年09月04日
CLAP: 开启音频理解新篇章的对比语言-音频预训练模型
2024年09月04日
MoE-LLaVA: 使用专家混合模型提升大型视觉语言模型性能
2024年09月05日
Meta-Transformer:一个统一的多模态学习框架
2024年09月05日
知识图谱与多模态学习的融合:KG-MM-Survey项目综述
2024年09月05日
MotionLLM: 理解人类行为的多模态大语言模型
2024年09月05日