#GPT-4V

AppAgent - 智能代理框架简化智能手机应用操作

AppAgent多模态智能手机应用GPT-4V探索学习Github开源项目

AppAgent是一种基于LLM的多模态智能代理框架，模仿人类点击和滑动操作来运行智能手机应用。框架通过自主探索或观察人类演示学习新操作，生成知识库以执行复杂任务。无需系统后端访问，适用性广泛。提供详细配置步骤、评估基准和使用案例，支持GPT-4V和通义千问-VL等多种模型。

OSWorld - 多平台兼容的虚拟环境与基准测试工具

OSWorld虚拟化平台桌面环境AI代理GPT-4VGithub开源项目

OSWorld项目提供多平台兼容的虚拟环境和基准测试工具，支持AWS、Azure、VirtualBox等。通过详细的安装指南和快速启动示例，用户可轻松配置和运行环境。项目包含最新的代码重构与平台扩展，并发布了相关论文和项目页面，提供全面的技术支持和资源。

awesome-openai-vision-api-experiments - OpenAI视觉API的研究与应用提供全面资源

OpenAI Vision APIGPT-4Vzero-shot学习图像分类视觉AIGithub开源项目

该项目为OpenAI视觉API的研究与应用提供全面资源，覆盖从基础图像分类至高级的零次学习模型，适合初学者与专家共同探索、分享与合作。

Open-Interface - 利用LLM实现计算机自驱动操作

Open Interface自驾电脑软件GPT-4V自动化机器学习Github开源项目

Open Interface通过向LLM后端（如GPT-4V）发送用户请求来实现计算机的全自动驾驶功能。系统通过模拟键盘和鼠标输入自动执行任务，并在必要时发送当前屏幕截图进行调整。此项目支持MacOS、Linux和Windows，并允许连接不同的LLM后端进行自定义配置，带来了提高效率和自动化的新选择。

awesome-hallucination-detection - 多模态大语言模型幻觉检测与评估文献综述

awesome-hallucination-detection大语言模型幻觉检测GPT-4VUniHDGithub开源项目

该项目汇总了关于大型语言模型（LVLMs）在多模态任务中幻觉检测的研究文献。这些研究提供了多个评估基准和框架，如HallusionBench、FactCHD、MHaluBench等，用于评估LVLMs在视觉和语言理解中的表现，涵盖了准确性、一致性、解释性等方面的指标。该仓库不仅评估现有模型，还提出新的解决方案，通过验证生成内容的准确性和一致性，减少虚假信息，提升语言模型的可靠性。

sports - 使用YOLOv5和ByteTrack追踪足球运动员，结合YOLOv7进行3D姿势估计及GPT-4V分析队服颜色分配球员

YOLOv5ByteTrack足球运动员计算机视觉GPT-4VGithub开源项目

本文介绍了如何在足球赛事中使用YOLOv5和ByteTrack技术进行球员追踪，使用YOLOv7实现3D姿势估计，并通过GPT-4V基于球衣颜色分配球员。文章包含技术应用示例、实现方法以及相关视频和代码资源，旨在帮助读者更好地理解和应用这些技术。

SoM - 创新视觉提示技术提升GPT-4V图像理解能力

GPT-4V视觉提示Set-of-Mark图像分割视觉推理Github开源项目

Set-of-Mark (SoM)通过在图像上叠加可定位标记，增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现，实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向，使GPT-4V能更准确地分析复杂视觉信息。

vimGPT - 基于GPT-4V的无鼠标网页浏览器

vimGPTAI浏览器GPT-4VVimium多模态模型Github开源项目

vimGPT是一个创新的网页浏览项目，结合了GPT-4V的视觉能力和Vimium扩展。该项目实现了无需鼠标的网页浏览，用户可通过键盘或语音命令操控浏览器。vimGPT探索了多模态模型在网络交互中的应用，提高了网页访问的便利性。项目正在开发更多功能，如集成高级API和提升图像分辨率，以增强整体用户体验。

Awesome-Multimodal-Prompts - GPT-4V多模态提示词集锦助力视觉AI应用开发

Multimodal PromptsGPT-4VDALL·E 3图像生成多模态AIGithub开源项目

Awesome-Multimodal-Prompts收录了针对GPT-4V的多模态提示词集合，包括图像识别、视频理解和代码生成等领域的实用示例。这些提示词展示了GPT-4V的视觉分析能力，可用于图像到文本的智能转换，为多模态AI应用开发提供参考。该项目汇集的提示词示例有助于开发者探索和利用GPT-4V的多模态功能。

ALLaVA - GPT4V合成数据集助力轻量级视觉语言模型训练

ALLaVAGPT-4V视觉语言模型数据集微调Github开源项目

ALLaVA项目推出大规模GPT4V合成数据集，旨在促进轻量级视觉语言模型的训练。项目发布了ALLaVA-Phi3-mini-128k、ALLaVA-StableLM2-1_6B和ALLaVA-Phi2-2_7B等多个模型版本，可直接从Hugging Face仓库加载。ALLaVA-4V数据集整合了LAION和Vision FLAN的图像标注与指令数据，以及GPT-4-Turbo生成的文本指令，总样本量超过140万。这一资源为视觉语言模型研究提供了丰富的训练数据和预训练模型，有望推动该领域的进一步发展。

visualwebarena - 真实视觉网络任务评估多模态智能体表现的基准平台

VisualWebArena多模态代理视觉网页任务AI评估GPT-4VGithub开源项目

VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务，全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法，提供端到端训练和环境重置功能，支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据，方便研究人员进行分析和评估。

OmniParser - 将界面截图转化为易于理解元素的智能工具

OmniParser界面解析GPT-4V交互区域检测图标功能描述Github开源项目

本项目将用户界面截图解析为结构化元素，提升GPT-4V的操作准确性。近期发布的交互区域检测和图标功能描述模型，在Windows Agent Arena中表现卓越。项目易于安装并支持在Gradio中演示使用案例。如需更多详情，请参见项目主页。

相关文章

Article Cover

Gemini Ultra：首个超越人类专家表现的模型，超越GPT4！附带体验链接！

2024年08月03日

Article Cover

AppAgent: 智能手机应用的多模态AI助手

Article Cover

OpenAI Vision API 实验集锦：探索计算机视觉的无限可能

Article Cover

Open Interface：利用LLM实现全自动计算机控制

Article Cover

体育与计算机视觉的完美结合:最新技术应用展示运动分析新境界

Article Cover

Awesome Multimodal Prompts:探索GPT-4V和DALL-E 3的多模态能力

Article Cover

Awesome-Multimodal-Prompts:探索GPT-4V和DALL-E3的多模态能力

Article Cover

Set-of-Mark (SoM): 提升大型语言模型视觉能力的创新方法

Article Cover

vimGPT: 革新网页浏览体验的AI助手

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号