微软开源纯视觉屏幕解析工具OmniParser，GUI时代真的来了！

AGI OmniParser

Ray

前几天智谱AI发布了AutoGLM，让很多人直呼“王炸”、“头皮发麻”。

AutoGLM实际上是AI在手机上通过指令帮我们完成一系列操作，比如点外卖、订酒店、订机票等等。

最牛的其实不是完成了任务，因为这不是通过软件之间的接口对接实现的，而是直接模拟人点击操作了手机。

但这种操作，依我来看，也仅限于安卓。苹果是不可能给软件开这么高的权限，顶多是开个接口，会让用户实现这部分有接口的功能，但是朋友圈点赞评论暂时是想都别想了。

微软这几天开源的OmniParser有点意思，基于纯视觉的 GUI 代理的屏幕解析工具。

简单来说就是让AI分析屏幕，理解每一个按钮是操作什么功能的。

OmniParser是GUI中非常关键的一部分，只是理解了页面，如果再加上自动化，才是真正的实现GUI。

项目简介

OmniParser是一种全新的视觉解析工具，专为提升跨多个操作系统和应用程序的界面操作自动化而设计。该项目通过结构化解析用户界面截图，极大地增强了大型视觉语言模型GPT-4V的性能，使其能够更准确地在用户界面上定位和执行操作。

OmniParser整合了多个细化的模型，包括交互图标检测和图标功能描述，有效地识别和理解界面中的可交互元素。在没有额外输入信息的情况下，仅凭截图输入就显著超越了传统基线模型。

主要功能

1.可靠地识别用户界面内的可交互图标：

OMNIPARSER利用先进的视觉检测模型，从用户界面的截图中精确定位可交互元素（如按钮、图标、输入框等）。它能够自动识别并标注这些元素的位置和边界，确保系统可以准确了解哪些区域是可以进行操作的，从而为后续的自动化交互提供基础。

2.理解屏幕截图中各种元素的语义，并准确地将预期操作与屏幕上的相应区域关联起来：

OMNIPARSER不仅识别元素的视觉信息，还通过语义解析模型理解每个元素的功能和用途。它将这些语义信息与视觉检测结果相结合，准确关联预期操作和屏幕中的具体区域，从而提升自动化系统在执行任务时的准确性和有效性。

DEMO

1.OmniParser解析后的截图图像和本地语义示例。OmniParser的输入包括用户任务和UI截图，输出为：1）包含覆盖有边界框和编号的解析后截图图像，2）包含提取的文本和图标描述的本地语义信息。

2.可交互区域检测数据集示例。边界框基于从网页的DOM树中提取的可交互区域。

用途

简单了想了下，用途还真的挺多的。跨平台的自动化操作、智能辅助工具、无障碍辅助技术、自动化软件测试、企业工作流自动化、网页数据采集和个性化用户体验优化。

当然，开发者们的智慧肯定不止于此。再结合起来实际的一些需求，只讲一个实用案例，其他的你们可以在评论区聊聊。

“网络水军越来越智能，价格还被打下来了”。

项目链接

https://www.dongaigc.com/p/microsoft/OmniParser?a=omniparser

相关项目

Awesome-AGI

Awesome-AGI提供全面的通用人工智能（AGI）框架、软件和资源，专为研究人员和开发者设计。支持医疗、金融、交通及教育行业的技术创新，内容涵盖AGI定义、关键研究、最新论文和在线试用等，助力用户深入理解并应用AGI技术。

micro-agent

Micro Agent是一个基于OpenAI GPT-4的微型自主代理工具，专门设计用于自动编写Python代码，达成用户指定的目的。该项目简化了编写和测试代码的过程，通过其内置的状态机制进行自动化处理。它无疑是AI研究领域的重要工具，代表着迈向通用人工智能的一步。此外，它为AI开发者和研究人员提供了一个探索和实验自主代理开发的有效平台。

automata

Automata旨在成为一个完全自主、自我编程的AI系统，结合GPT-4和向量数据库，实现记录、搜索和编写代码。自动生成代码和文档，提升程序员的生产力，并探索AI和计算机科学的基本问题。项目提供详细的安装和使用指南、示范代码、贡献指南以及未来发展目标。

awesome-autonomous-gpt

收集和分享与GPT自主AI代理相关的开源项目和资源，提供代码、模型和数据，促进在多领域应用的LLM代理的发展。涵盖开发工具、应用实例和基准测试，助力高效任务解决和复杂问题处理。自研的KwaiAgents系统现已开源并被Auto-GPT Wiki收录，是AI研究和开发者的宝贵参考。

Awesome-LLM-related-Papers-Comprehensive-Topics

本项目收集了大量与大型语言模型（LLM）相关的顶级论文和项目，涵盖记忆、推理、强化学习、视觉语言模型、提示工程等多种主题。用户可通过Notion浏览器进行互动式查阅，迅速获取相关论文和项目链接，轻松了解LLM领域的最新研究动态，帮助研究人员和开发者高效获取前沿信息。

PromethAI-Backend

PromethAI是一个基于Python的开源AGI项目，能够根据用户的目标和偏好提供推荐，并基于用户反馈进行优化。主要功能包括支持自动化任务、低延迟、易于使用和部署等。系统目前专注于食品领域，但可以扩展至其他任何领域。PromethAI通过引入决策树帮助用户进行决策和执行任务，并支持多种向量数据库。需注意使用GPT-4模型可能产生高额成本，建议用户自行监控API使用情况。

AgentK

AgentK是一个模块化、自我演进的AGI系统，由Hermes、AgentSmith、ToolMaker和WebResearcher等多个智能体组成。这些智能体能够协作并按需构建新的智能体，以完成各种任务。系统基于LangGraph和LangChain框架开发，支持自我测试和工具创建，不断发展自身能力以应对各种挑战。

AGI-survey

AGI-survey项目系统梳理了人工通用智能(AGI)研究的前沿进展。项目覆盖AGI内部机制、接口设计、系统实现、对齐问题及发展路线等核心领域,汇总分析了大量相关论文。内容涉及AGI的感知、推理、记忆能力,及其与数字世界、物理世界和其他智能体的交互。此外,项目还探讨了AGI的评估方法和伦理考量,为AGI的发展提供全面参考。