#多模态

ustore - 模块化多模态事务数据库,AI和语义搜索的高性能解决方案
UStore数据库多模态事务性人工智能Github开源项目
UStore是一款面向AI和语义搜索的高性能数据库系统。它支持多种存储引擎,可处理二进制对象、文档、图形和向量数据。UStore提供多语言驱动,集成Pandas和NetworkX API,并支持向量搜索。其模块化、多模态和事务性设计使其成为构建灵活数据存储解决方案的有力工具。
CLoT - 探索大语言模型的跳跃思维能力
CLoT大语言模型创意幽默生成跳跃性思维多模态Github开源项目
CLoT项目致力于探索大型语言模型的跳跃思维能力,通过创意幽默生成任务挑战模型进行非顺序思考。研究团队利用大喜利游戏作为实验平台,要求模型对多模态信息生成出人意料的幽默回应。项目提供零样本推理示例和Gradio网页界面,并公开发布数据集和模型检查点,为研究大语言模型的创造性思维能力开辟了新途径。
CogCoM - 链式操作助力视觉语言模型精细化理解
CogCoM视觉语言模型Chain of Manipulations多模态AI推理Github开源项目
CogCoM是一个新型视觉语言模型,采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色,并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集,促进了视觉语言模型在细节理解领域的发展。
Awesome-Remote-Sensing-Multimodal-Large-Language-Model - 远程遥感多模态大语言模型资源全面汇总
大语言模型遥感多模态视觉语言人工智能Github开源项目
本项目是远程遥感多模态大语言模型(RS-MLLMs)领域的首个综述,全面汇总了最新模型架构、训练流程、数据集和评估基准等资源。内容涵盖视觉-语言预训练模型、智能代理等多个方面,持续追踪RS-MLLMs的最新进展。项目不断更新,旨在为研究人员提供全面的RS-MLLMs资源库,促进该领域的发展。
Awesome-Remote-Sensing-Foundation-Models - 遥感基础模型论文代码数据集综合资源库
遥感基础模型计算机视觉自监督学习预训练多模态Github开源项目
该项目汇集遥感基础模型相关论文、数据集、基准测试、代码和预训练权重。内容涵盖视觉、视觉-语言、生成式、视觉-位置、视觉-音频等多类型遥感基础模型,以及特定任务模型和遥感智能体。另外还包含大规模预训练数据集等资源,为遥感领域研究和开发提供全面支持。
LabelLLM - 开源数据标注平台 优化LLM开发流程
LabelLLM数据标注平台开源多模态人工智能Github开源项目
LabelLLM是一个开源数据标注平台,旨在优化大型语言模型(LLM)开发中的数据标注流程。该平台提供灵活配置、多模态数据支持、全面任务管理和AI辅助标注功能。LabelLLM适合独立开发者和中小型研究团队使用,可显著提高数据标注效率,为LLM训练数据准备提供有力支持。
LanguageBind - 通过语言绑定实现跨模态语义对齐
LanguageBind多模态预训练视频语言零样本分类Github开源项目
LanguageBind是一种基于语言的多模态预训练方法,通过语言将不同模态进行语义关联。该方法引入了VIDAL-10M数据集,包含1000万条视频、红外、深度、音频及对应语言数据。通过多视角增强的语言描述训练,LanguageBind在多个跨模态任务上实现了先进性能,无需中间模态即可完成跨模态语义对齐。
guidance - 灵活高效的语言模型编程框架
Guidance语言模型AI编程代码生成多模态Github开源项目
Guidance是一个创新的语言模型编程框架,通过约束生成和控制流程来优化模型输出。它支持正则表达式、上下文无关文法等约束方式,并能灵活结合条件、循环等控制结构。Guidance可显著提升特定任务的输出质量,同时降低延迟和成本。该框架兼容多种后端,包括Transformers、llama.cpp和OpenAI等,具有广泛的适用性。
MiniCPM - 轻量级大语言模型实现高性能端侧部署
MiniCPM端侧大语言模型开源模型多模态模型量化Github开源项目
MiniCPM是一系列高效的端侧大语言模型,仅有2.4B非词嵌入参数。经过优化后,在多项评测中表现优异,甚至超越了一些参数量更大的模型。该项目支持多模态功能,可在移动设备上流畅运行。MiniCPM开源了多个版本,涵盖文本、多模态、量化和长文本等应用场景,适用于学术研究和特定商业用途。这一开源项目由面壁智能与清华大学自然语言处理实验室联合开发。
Video-LLaMA - 指令微调的音视频语言模型实现多模态视频理解
Video-LLaMA多模态视频理解语言模型AI对话Github开源项目
Video-LLaMA是一个多模态AI项目,为大型语言模型赋予视频和音频理解能力。该项目基于BLIP-2和MiniGPT-4构建,包含视觉-语言和音频-语言两个分支。经过大规模视频和图像数据预训练及指令微调后,Video-LLaMA能够进行视频分析、音频理解和多轮对话。该模型支持英文和中文交互,为视频内容分析提供了新的AI解决方案。
Awesome-Foundation-Models - 视觉语言基础模型精选资源库
基础模型多模态计算机视觉自然语言处理深度学习Github开源项目
Awesome-Foundation-Models项目提供视觉和语言基础模型的精选资源列表,涵盖最新研究论文、综述文章和开源代码。内容包括图像、视频和多模态等领域,助力研究者和开发者追踪前沿进展、了解研究动态和寻找实用实现。该资源库为人工智能领域提供全面而权威的参考。
LLaMA-Adapter - 轻量级适配方法高效微调大语言模型
LLaMA-Adapter微调大语言模型指令跟随多模态Github开源项目
LLaMA-Adapter是一种高效的大语言模型微调方法。通过在LLaMA模型中插入适配器,仅引入120万个可学习参数,1小时内即可将LLaMA转化为指令跟随模型。该方法提出零初始化注意力机制,稳定早期训练。LLaMA-Adapter支持多模态输入,拓展应用场景。与全量微调相比,在参数量和训练时间上具显著优势,同时保持相当性能。
MiniGPT4-video - 提升视频理解的创新多模态语言模型
GoldfishMiniGPT4-Video视频理解长视频多模态Github开源项目
MiniGPT4-Video项目采用交错视觉-文本标记技术,大幅提升了多模态大语言模型的视频理解能力。该模型在短视频理解方面表现优异,多项基准测试中均优于现有方法。项目还开发了Goldfish框架,专门应对任意长度视频的处理难题,有效解决了长视频理解中的噪声、冗余和计算挑战。这些创新成果为视频分析和理解领域开辟了新的可能性。
Awesome-LLMs-for-Video-Understanding - 视频理解领域大型语言模型应用综述
视频理解大语言模型多模态指令微调视频分析Github开源项目
该项目汇集了大型语言模型在视频理解领域的最新应用进展,包括视频LLM模型、训练策略、相关任务、数据集、基准测试和评估方法。项目全面概述了LLM如何推动视频理解技术发展,并探讨了其应用前景。这是研究人员和开发者了解视频LLM最新进展的重要资源。
CVinW_Readings - 聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域
计算机视觉迁移学习预训练模型多模态图像分类Github开源项目
CVinW_Readings项目聚焦计算机视觉在野外(Computer Vision in the Wild)这一新兴研究领域。项目提供CVinW简介并维护相关论文集。CVinW致力于开发易于适应广泛视觉任务的可转移基础模型,特点是广泛的任务转移场景和低转移成本。内容涵盖任务级转移、高效模型适应和域外泛化等研究方向的最新进展。
SONAR - 先进的多语言多模态句子表示模型
SONAR多语言多模态句子嵌入机器翻译Github开源项目
SONAR是Meta AI推出的开源多语言多模态句子表示模型。它支持200种语言的文本处理和37种语言的语音处理,在多语言相似性搜索任务中性能优异。SONAR可用于文本和语音嵌入、文本重构、跨语言翻译等多种自然语言处理任务,为多语言多模态AI应用提供了强大的基础。
ml-mgie - 基于多模态大语言模型的智能图像编辑技术
MGIE图像编辑大型语言模型多模态指令引导Github开源项目
MGIE项目通过多模态大语言模型增强指令式图像编辑能力。该技术生成详细指令并提供明确指导,使编辑模型能更准确理解和执行编辑意图。结合端到端训练的视觉想象和图像操作,MGIE为图像编辑提供更灵活精确的控制方法。
ConsistentID - 基于细粒度身份保持的先进人像生成模型
ConsistentID人像生成身份保持AI绘图多模态Github开源项目
ConsistentID是一个创新的人像生成模型,通过整合FaceParsing和FaceID信息到扩散模型中,实现高度身份保真。该模型支持快速定制、多样化生成和文本控制,无需额外训练即可使用。项目提出的FGIS基准为细粒度身份保持设立新标准,ConsistentID还可作为适配器与其他模型协同工作,推动人像生成技术发展。
AGI-survey - 人工通用智能研究前沿及未来发展路线图概览
AGI人工智能大语言模型多模态推理Github开源项目
AGI-survey项目系统梳理了人工通用智能(AGI)研究的前沿进展。项目覆盖AGI内部机制、接口设计、系统实现、对齐问题及发展路线等核心领域,汇总分析了大量相关论文。内容涉及AGI的感知、推理、记忆能力,及其与数字世界、物理世界和其他智能体的交互。此外,项目还探讨了AGI的评估方法和伦理考量,为AGI的发展提供全面参考。
large-ocr-model.github.io - OCR 技术提升多模态大模型视觉问答性能研究
OCR大型模型多模态视觉问答缩放法则Github开源项目
本项目研究 OCR 技术对多模态大模型性能的影响。实验表明,OCR 能显著提高模型在视觉问答任务中的表现。研究者构建了 REBU-Syn 数据集,验证了 OCR 领域的缩放法则,并开发了高精度 OCR 模型。这项工作为多模态大模型的应用开辟了新方向,揭示了 OCR 在增强模型能力方面的重要价值。
ComfyUI-Gemini - 将Google Gemini AI模型引入ComfyUI的多模态对话与分析工具
ComfyUIGeminiAI绘图API多模态Github开源项目
ComfyUI-Gemini项目集成了Google Gemini AI模型,为ComfyUI提供文本生成、图像分析和多模态对话功能。该项目支持Gemini-pro、Gemini-pro-vision和Gemini 1.5 Pro模型,可处理文本、图像、音频和视频等多种输入。它提供系统指令设置和多轮对话功能,并设计了隐式和显式API密钥节点,兼顾安全分享和个人使用需求。该项目为用户提供了灵活、强大的AI交互体验。
PAIR-Diffusion - 多模态对象级图像编辑的开源解决方案
PAIR Diffusion图像编辑多模态对象级别扩散模型Github开源项目
PAIR-Diffusion是一个开源的多模态对象级图像编辑器。它支持外观编辑、形状修改、对象添加和变体生成等功能,可通过参考图像和文本进行控制。该项目基于PyTorch开发,兼容各种扩散模型。PAIR-Diffusion在SDv1.5上实现,并使用COCO-Stuff数据集微调。这个工具为对象级图像编辑提供了灵活精确的解决方案。
DriveMLM - 融合大语言模型的自动驾驶行为规划框架
DriveMLM自动驾驶大语言模型行为规划多模态Github开源项目
DriveMLM是一个创新的自动驾驶框架,融合了大语言模型技术。该框架通过标准化决策状态、采用多模态大语言模型进行行为规划,并设计数据引擎收集训练数据,实现了在真实模拟环境中的闭环自动驾驶。在CARLA Town05 Long测试中,DriveMLM获得76.1分的驾驶得分,比Apollo基准高出4.7分。这一成果为大语言模型在自动驾驶领域的应用提供了新的研究方向。
LLaVA-Med - 生物医学视觉语言模型助力图像分析与智能问答
LLaVA-Med多模态生物医学大语言模型视觉问答Github开源项目
LLaVA-Med是一个针对生物医学领域的大规模语言和视觉模型。该模型通过课程学习方法对LLaVA进行了生物医学领域适应,在PathVQA和VQA-RAD等开放式生物医学问答任务中表现优异。LLaVA-Med支持多模态对话和视觉问答,为生物医学视觉语言处理研究提供了有力工具。需要注意的是,此模型仅供研究使用,不适用于临床决策。
Wordware - 高效AI代理开发与部署的集成环境
AI工具WordwareAI应用开发自然语言编程提示工程多模态
Wordware是一款面向AI代理开发的集成环境,为技术和非技术人员提供直观的界面和强大的功能。平台整合了软件开发优势和自然语言处理能力,具备类Notion界面、高级技术特性、多LLM供应商支持、一键API部署和多模态功能。已有超过10,000名用户使用Wordware,该平台致力于提升AI应用开发效率,帮助用户快速构建高质量解决方案,并优化团队协作流程。
GPT-4o - OpenAI多模态AI平台GPT-4o革新人机交互
AI工具GPT-4o人工智能多模态OpenAIChatGPT
GPT-4o作为OpenAI的最新多模态AI平台,融合了文本、视觉和音频处理技术。它不仅提供快速、高效的AI交互体验,还能够理解和生成多种形式的内容。这一平台为技术爱好者、开发人员和企业提供了探索AI前沿应用的机会,有望在各个领域推动创新和提升效率。
Chainlit - 快速构建和部署可靠对话式AI应用的一站式平台
AI工具Conversational AIChainlit生成式AI多模态应用程序框架
Chainlit平台专注于对话式AI应用开发,提供从原型设计到生产部署的完整支持。功能涵盖多模态处理、身份验证、提示词优化、可观察性和分析。平台支持多种AI工具集成,拥有活跃社区。注重数据隐私,支持自托管部署,保障对话数据安全。Chainlit致力于帮助开发团队快速构建可靠、高效的对话AI应用。
Free ChatGPT Omni (GPT4o) - GPT4o多模态AI对话平台 免费体验先进人工智能
AI工具GPT4o人工智能多模态语言模型OpenAI
Free ChatGPT Omni为用户提供免费GPT4o对话服务。该平台支持文本、音频和视觉的多模态交互,具备实时语音对话、高级语言理解和视觉分析能力。GPT4o能够处理多种语言,解答图片相关问题,还可生成包含可读文本的图像。与GPT-4 Turbo相比,GPT4o运行更快、成本更低,并且拥有更高的使用限制,显著提升了AI对话体验的便捷性和效率。
Captum - 开源PyTorch模型可解释性分析工具库Captum
AI工具Captum可解释性PyTorch神经网络多模态
Captum是PyTorch生态系统中的模型可解释性工具库,支持视觉、文本等多模态模型解释。它与PyTorch模型高度兼容,仅需少量修改即可集成。作为开源通用库,Captum为研究人员提供了实现和评估新算法的平台。通过集成梯度等多种技术,Captum帮助用户洞察模型决策过程,提高AI系统的透明度和可信度。适用于需要深入理解和优化机器学习模型的开发者和研究者。
Gemini GPT AI - 多模态AI助手集成文本图像音视频处理功能
AI工具Gemini GPT AI多模态人工智能助手聊天机器人内容生成
Gemini GPT AI是一款多模态AI助手,集成处理文本、代码、音频、图像和视频功能。它能创建内容、编写代码、生成多媒体,提升工作效率。此工具免费使用,无需注册,支持多语言,保障用户隐私和数据安全。Gemini GPT AI为各行业专业人士提供生产力和创造力支持。
Appomate AI - 多功能AI平台集成先进模型提升工作效率
AI工具AI助手工作流自动化多模态AI模型数据隐私
Appomate AI平台整合多家领先AI技术,支持多模态输入和多任务处理。用户可创建自动化工作流程,使用预设模板,与多个AI助手同时交互。平台兼容文本、图像、语音、音频和PDF,即将支持视频处理。采用OpenAI、Anthropic等公司的先进模型,确保数据安全和隐私。Appomate AI致力于以经济实惠的价格提供高质量AI解决方案,为各类工作场景提供AI辅助解决方案。
Automated-Fact-Checking-Resources - 自动事实核查资源库 数据集、模型与研究进展
自动事实核查数据集多模态虚假信息检测社交媒体Github开源项目
该项目整理了自动事实核查领域的全面资源,包括最新数据集、模型和研究进展。涵盖从声明检测到结果预测的完整流程,并包含多模态事实核查内容。项目持续更新,为研究人员提供便捷的参考资料库。
mindone - 多模态理解与内容生成的开源算法库
MindONE多模态内容生成Stable DiffusionMindSporeGithub开源项目
MindONE是一个专注于多模态理解和内容生成的开源仓库。它集成了Stable Diffusion、InternVL、LLaVA等AI模型,支持文本生成图像、视频和音频的pipeline。该项目还提供大规模训练、模型微调等功能,并与HuggingFace Diffusers兼容,为AI领域的研究和开发提供了全面的工具支持。
Video-ChatGPT - 创新视频对话技术开启细致视频理解新纪元
Video-ChatGPT视频理解大型视觉语言模型问答系统多模态Github开源项目
Video-ChatGPT是一个融合大型视觉和语言模型的视频对话系统。该项目构建了10万条视频-指令对数据集,开发了首个视频对话量化评估框架,在视频推理、创意生成、空间和时间理解等任务中表现出色。这一开源项目为视频内容理解和人机交互带来了新的发展方向。
BakLLaVA - 突破性多模态语言模型创新
BakLLaVA多模态语言模型视觉指令微调AI训练Github开源项目
BakLLaVA项目通过优化基础模型、改进训练流程、使用定制数据集和重构LLaVA架构,将先进的多模态能力融入语言模型。该项目与LAION、Ontocord和Skunkworks OSS AI小组合作,致力于提升AI系统理解和生成视觉内容的能力。BakLLaVA为研究人员提供了探索视觉语言模型前沿的强大工具。
AppAgent - 智能代理框架简化智能手机应用操作
AppAgent多模态智能手机应用GPT-4V探索学习Github开源项目
AppAgent是一种基于LLM的多模态智能代理框架,模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作,生成知识库以执行复杂任务。无需系统后端访问,适用性广泛。提供详细配置步骤、评估基准和使用案例,支持GPT-4V和通义千问-VL等多种模型。