#视觉提示
T-Rex
T-Rex2是一款融合文本和视觉提示的通用目标检测模型。它突破传统模型局限,具备零样本检测能力,适用于农业、工业和生物医学等领域。该模型支持交互式视觉提示、通用视觉提示和文本提示三种工作流程,满足多样化的目标检测需求。项目提供在线演示和API接口,便于快速体验和集成。
SoM
Set-of-Mark (SoM)通过在图像上叠加可定位标记,增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现,实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向,使GPT-4V能更准确地分析复杂视觉信息。
CrayEye
CrayEye是一款开源的多模态AI分析应用,利用智能手机摄像头和传感器解读环境。用户可创建、共享和使用融合实时位置、天气等数据的增强型提示。支持iOS和Android,提供鸟类识别、物品分析等功能。这个AI驱动开发的应用为探索视觉多模态模型提供了创新平台,鼓励用户社区共同贡献和改进。
SwiftSora
SwiftSora是一个基于OpenAI Sora模型的开源AI视频生成平台,支持创建多样化的视频内容,包括自然风光、历史场景和科幻画面等。该项目采用Nuxt.js、Vue 3和Tailwind CSS进行全栈开发,实现一键部署到Vercel。SwiftSora内置OpenAI代理,确保API密钥安全,为创作者和开发者提供便捷、高效的AI视频生成工具,助力实现多元化视觉创意。
ViP-LLaVA
ViP-LLaVA项目旨在提升大型多模态模型对任意视觉提示的理解能力。通过在原始图像上叠加视觉提示进行指令微调,该方法使模型能更好地处理多样化的视觉输入。项目还开发了ViP-Bench,这是首个零样本区域级基准,用于评估多模态模型性能。ViP-LLaVA提供完整的训练流程、模型权重和演示,为视觉语言模型研究提供了有力支持。