Logo

#GPT-4V

Logo of AppAgent
AppAgent
AppAgent是一种基于LLM的多模态智能代理框架,模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作,生成知识库以执行复杂任务。无需系统后端访问,适用性广泛。提供详细配置步骤、评估基准和使用案例,支持GPT-4V和通义千问-VL等多种模型。
Logo of awesome-hallucination-detection
awesome-hallucination-detection
该项目汇总了关于大型语言模型(LVLMs)在多模态任务中幻觉检测的研究文献。这些研究提供了多个评估基准和框架,如HallusionBench、FactCHD、MHaluBench等,用于评估LVLMs在视觉和语言理解中的表现,涵盖了准确性、一致性、解释性等方面的指标。该仓库不仅评估现有模型,还提出新的解决方案,通过验证生成内容的准确性和一致性,减少虚假信息,提升语言模型的可靠性。
Logo of Awesome-Multimodal-Prompts
Awesome-Multimodal-Prompts
Awesome-Multimodal-Prompts收录了针对GPT-4V的多模态提示词集合,包括图像识别、视频理解和代码生成等领域的实用示例。这些提示词展示了GPT-4V的视觉分析能力,可用于图像到文本的智能转换,为多模态AI应用开发提供参考。该项目汇集的提示词示例有助于开发者探索和利用GPT-4V的多模态功能。
Logo of OSWorld
OSWorld
OSWorld项目提供多平台兼容的虚拟环境和基准测试工具,支持AWS、Azure、VirtualBox等。通过详细的安装指南和快速启动示例,用户可轻松配置和运行环境。项目包含最新的代码重构与平台扩展,并发布了相关论文和项目页面,提供全面的技术支持和资源。
Logo of sports
sports
本文介绍了如何在足球赛事中使用YOLOv5和ByteTrack技术进行球员追踪,使用YOLOv7实现3D姿势估计,并通过GPT-4V基于球衣颜色分配球员。文章包含技术应用示例、实现方法以及相关视频和代码资源,旨在帮助读者更好地理解和应用这些技术。
Logo of ALLaVA
ALLaVA
ALLaVA项目推出大规模GPT4V合成数据集,旨在促进轻量级视觉语言模型的训练。项目发布了ALLaVA-Phi3-mini-128k、ALLaVA-StableLM2-1_6B和ALLaVA-Phi2-2_7B等多个模型版本,可直接从Hugging Face仓库加载。ALLaVA-4V数据集整合了LAION和Vision FLAN的图像标注与指令数据,以及GPT-4-Turbo生成的文本指令,总样本量超过140万。这一资源为视觉语言模型研究提供了丰富的训练数据和预训练模型,有望推动该领域的进一步发展。
Logo of awesome-openai-vision-api-experiments
awesome-openai-vision-api-experiments
该项目为OpenAI视觉API的研究与应用提供全面资源,覆盖从基础图像分类至高级的零次学习模型,适合初学者与专家共同探索、分享与合作。
Logo of SoM
SoM
Set-of-Mark (SoM)通过在图像上叠加可定位标记,增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现,实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向,使GPT-4V能更准确地分析复杂视觉信息。
Logo of visualwebarena
visualwebarena
VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务,全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法,提供端到端训练和环境重置功能,支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据,方便研究人员进行分析和评估。