#多模态学习

Awesome-Multimodal-LLM学习资料汇总 - 多模态大语言模型研究趋势

3 个月前

LLM 多模态学习神经网络模型微调开源 Github 开源项目

3 个月前

Awesome-Transformer-Attention学习资源大全 - 视觉Transformer和注意力机制论文列表

3 个月前

Vision Transformer 深度学习多模态学习 Transformer 注意力机制 Github 开源项目

3 个月前

Ludwig学习资料汇总 - 低代码AI模型构建框架

3 个月前

Ludwig 深度学习 AI模型自定义模型多模态学习 Github 开源项目热门

3 个月前

大型语言模型在图数据领域的应用与进展：Awesome-LLM4Graph-Papers项目解析

3 个月前

LLM 图学习自然语言处理图神经网络多模态学习 Github 开源项目

3 个月前

多模态学习在医学影像中的应用:一个全面的综述

3 个月前

医学影像多模态学习报告生成视觉问答视觉语言模型 Github 开源项目

3 个月前

MotionLLM: 理解人类行为的多模态大语言模型

3 个月前

MotionLLM 人工智能人类行为理解多模态学习大语言模型 Github 开源项目

3 个月前

知识图谱与多模态学习的融合:KG-MM-Survey项目综述

3 个月前

知识图谱多模态学习视觉问答知识融合深度学习 Github 开源项目

3 个月前

Meta-Transformer:一个统一的多模态学习框架

3 个月前

Meta-Transformer 多模态学习人工智能深度学习计算机视觉 Github 开源项目

3 个月前

MoE-LLaVA: 使用专家混合模型提升大型视觉语言模型性能

3 个月前

MoE-LLaVA 大视觉语言模型多模态学习稀疏激活性能表现 Github 开源项目

3 个月前

CLAP: 开启音频理解新篇章的对比语言-音频预训练模型

3 个月前

CLAP 音频处理机器学习预训练模型多模态学习 Github 开源项目

3 个月前

相关项目

知我AI

知我AI, 高效的智能阅读与知识管理工具，为用户提供跨设备的信息同步，智能分析并快速提炼重要知识点，支持音视频和文本信息，便于专业人士和学者有效管理和检索知识资源，节省时间并提高学习与工作效率。

Awesome-Transformer-Attention

探索视觉变换器和注意力机制的最新发展，包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用，发现创新思路。

Awesome-Multimodal-LLM

本页面介绍大语言模型（LLM）在多模态学习中的最新研究趋势，包括文本、视觉（图像和视频）、音频等多种模态。重点讨论如LLaMA、Alpaca和Bloom等开源且适合研究的LLM骨干模型及其学习方法，如全量微调、参数有效微调、上下文学习等。同时列举了具体的多模态LLM模型实例，如OpenFlamingo和MiniGPT-4，以及评估方法，如MultiInstruct和POPE，提供科研人员了解和研究LLM引导多模态学习的资源。

XPretrain

Microsoft Research MSM组在多模态学习和预训练方法上的最新研究成果，包含用于视频语言的HD-VILA-100M数据集，以及HD-VILA、LF-VILA、CLIP-ViP等预训练模型，和用于图像语言的Pixel-BERT、SOHO、VisualParsing模型。这些研究发表在CVPR、NeurIPS和ICLR等顶级会议，代码和数据集已公开，社区成员可以贡献和提出建议。

pykale

PyKale通过简化数据、软件和用户之间的连接，使跨学科研究的机器学习更容易访问。它专注于多模态学习和迁移学习，支持图像、视频和图形的数据类型，涵盖深度学习和降维模型。PyKale遵循绿色机器学习理念，通过减少重复、再利用资源和回收学习模型，实现高效和可持续的研究。适用于生物信息学、图像和视频识别及医学成像，利用多源知识做出准确且可解释的预测。

mmpretrain

MMPreTrain是基于PyTorch的开源预训练工具箱，提供丰富的训练策略和高效的模型分析工具。支持多种主干网络和预训练模型，如VGG、ResNet、Vision-Transformer等。具备强大的扩展性和高效性，适用于图像分类、图像描述、视觉问答等多种推理任务。最新版本v1.2.0增加了对LLaVA 1.5和RAM的支持，并提供Gradio界面。适用于多模态学习和自监督学习，支持大规模训练配置。提供详细的安装和教程文档，帮助用户快速入门。

EVA

EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目，如EVA-01和EVA-CLIP，致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供，为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。

CLAP

CLAP是一个音频-文本对比学习预训练模型，可提取音频和文本的潜在表示。它基于CLIP架构设计，通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库，支持从音频文件或数据中直接提取特征。

ludwig

Ludwig是一个低代码深度学习框架，用于构建定制的人工智能模型，如LLMs和其他深度神经网络。它支持多任务和多模态学习，优化了批量大小选择，分布式训练和模型微调，确保高效处理大规模数据集。Ludwig的模块化设计允许用户轻松实验不同的模型架构，支持超参数优化和丰富的度量可视化，适用于生产环境，并整合了Docker和Ray等工具，支持模型导出到Torchscript和Triton，一键上传至HuggingFace。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com