#视觉提示

ViP-LLaVA: 让大型多模态模型理解任意视觉提示

3 个月前

ViP-LLaVA 视觉语言模型多模态模型视觉提示 CVPR2024 Github 开源项目

3 个月前

Set-of-Mark (SoM): 提升大型语言模型视觉能力的创新方法

3 个月前

GPT-4V 视觉提示 Set-of-Mark 图像分割视觉推理 Github 开源项目

3 个月前

T-Rex2: revolucionando la detección de objetos con sinergia texto-visual

3 个月前

T-Rex2 目标检测计算机视觉视觉提示 API Github 开源项目

3 个月前

相关项目

T-Rex

T-Rex2是一款融合文本和视觉提示的通用目标检测模型。它突破传统模型局限，具备零样本检测能力，适用于农业、工业和生物医学等领域。该模型支持交互式视觉提示、通用视觉提示和文本提示三种工作流程，满足多样化的目标检测需求。项目提供在线演示和API接口，便于快速体验和集成。

SoM

Set-of-Mark (SoM)通过在图像上叠加可定位标记，增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现，实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向，使GPT-4V能更准确地分析复杂视觉信息。

CrayEye

CrayEye是一款开源的多模态AI分析应用，利用智能手机摄像头和传感器解读环境。用户可创建、共享和使用融合实时位置、天气等数据的增强型提示。支持iOS和Android，提供鸟类识别、物品分析等功能。这个AI驱动开发的应用为探索视觉多模态模型提供了创新平台，鼓励用户社区共同贡献和改进。

SwiftSora

SwiftSora是一个基于OpenAI Sora模型的开源AI视频生成平台，支持创建多样化的视频内容，包括自然风光、历史场景和科幻画面等。该项目采用Nuxt.js、Vue 3和Tailwind CSS进行全栈开发，实现一键部署到Vercel。SwiftSora内置OpenAI代理，确保API密钥安全，为创作者和开发者提供便捷、高效的AI视频生成工具，助力实现多元化视觉创意。

ViP-LLaVA

ViP-LLaVA项目旨在提升大型多模态模型对任意视觉提示的理解能力。通过在原始图像上叠加视觉提示进行指令微调，该方法使模型能更好地处理多样化的视觉输入。项目还开发了ViP-Bench，这是首个零样本区域级基准，用于评估多模态模型性能。ViP-LLaVA提供完整的训练流程、模型权重和演示，为视觉语言模型研究提供了有力支持。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com