微软开源纯视觉屏幕解析工具OmniParser,GUI时代真的来了!

Ray
前几天智谱AI发布了AutoGLM,让很多人直呼“王炸”、“头皮发麻”。
AutoGLM实际上是AI在手机上通过指令帮我们完成一系列操作,比如点外卖、订酒店、订机票等等。
最牛的其实不是完成了任务,因为这不是通过软件之间的接口对接实现的,而是直接模拟人点击操作了手机。
但这种操作,依我来看,也仅限于安卓。苹果是不可能给软件开这么高的权限,顶多是开个接口,会让用户实现这部分有接口的功能,但是朋友圈点赞评论暂时是想都别想了。
微软这几天开源的OmniParser有点意思,基于纯视觉的 GUI 代理的屏幕解析工具。

简单来说就是让AI分析屏幕,理解每一个按钮是操作什么功能的。
OmniParser是GUI中非常关键的一部分,只是理解了页面,如果再加上自动化,才是真正的实现GUI。
项目简介
OmniParser是一种全新的视觉解析工具,专为提升跨多个操作系统和应用程序的界面操作自动化而设计。该项目通过结构化解析用户界面截图,极大地增强了大型视觉语言模型GPT-4V的性能,使其能够更准确地在用户界面上定位和执行操作。
OmniParser整合了多个细化的模型,包括交互图标检测和图标功能描述,有效地识别和理解界面中的可交互元素。在没有额外输入信息的情况下,仅凭截图输入就显著超越了传统基线模型。
主要功能
1.可靠地识别用户界面内的可交互图标:
OMNIPARSER利用先进的视觉检测模型,从用户界面的截图中精确定位可交互元素(如按钮、图标、输入框等)。它能够自动识别并标注这些元素的位置和边界,确保系统可以准确了解哪些区域是可以进行操作的,从而为后续的自动化交互提供基础。
2.理解屏幕截图中各种元素的语义,并准确地将预期操作与屏幕上的相应区域关联起来:
OMNIPARSER不仅识别元素的视觉信息,还通过语义解析模型理解每个元素的功能和用途。它将这些语义信息与视觉检测结果相结合,准确关联预期操作和屏幕中的具体区域,从而提升自动化系统在执行任务时的准确性和有效性。
DEMO
1.OmniParser解析后的截图图像和本地语义示例。OmniParser的输入包括用户任务和UI截图,输出为:1)包含覆盖有边界框和编号的解析后截图图像,2)包含提取的文本和图标描述的本地语义信息。
2.可交互区域检测数据集示例。边界框基于从网页的DOM树中提取的可交互区域。
用途
简单了想了下,用途还真的挺多的。跨平台的自动化操作、智能辅助工具、无障碍辅助技术、自动化软件测试、企业工作流自动化、网页数据采集和个性化用户体验优化。
当然,开发者们的智慧肯定不止于此。再结合起来实际的一些需求,只讲一个实用案例,其他的你们可以在评论区聊聊。
“网络水军越来越智能,价格还被打下来了”。
项目链接
https://www.dongaigc.com/p/microsoft/OmniParser?a=omniparser
avatar
0
0
0
相关项目
Project Cover

Awesome-AGI

Awesome-AGI提供全面的通用人工智能(AGI)框架、软件和资源,专为研究人员和开发者设计。支持医疗、金融、交通及教育行业的技术创新,内容涵盖AGI定义、关键研究、最新论文和在线试用等,助力用户深入理解并应用AGI技术。

Project Cover

micro-agent

Micro Agent是一个基于OpenAI GPT-4的微型自主代理工具,专门设计用于自动编写Python代码,达成用户指定的目的。该项目简化了编写和测试代码的过程,通过其内置的状态机制进行自动化处理。它无疑是AI研究领域的重要工具,代表着迈向通用人工智能的一步。此外,它为AI开发者和研究人员提供了一个探索和实验自主代理开发的有效平台。

Project Cover

automata

Automata旨在成为一个完全自主、自我编程的AI系统,结合GPT-4和向量数据库,实现记录、搜索和编写代码。自动生成代码和文档,提升程序员的生产力,并探索AI和计算机科学的基本问题。项目提供详细的安装和使用指南、示范代码、贡献指南以及未来发展目标。

Project Cover

awesome-autonomous-gpt

收集和分享与GPT自主AI代理相关的开源项目和资源,提供代码、模型和数据,促进在多领域应用的LLM代理的发展。涵盖开发工具、应用实例和基准测试,助力高效任务解决和复杂问题处理。自研的KwaiAgents系统现已开源并被Auto-GPT Wiki收录,是AI研究和开发者的宝贵参考。

Project Cover

Awesome-LLM-related-Papers-Comprehensive-Topics

本项目收集了大量与大型语言模型(LLM)相关的顶级论文和项目,涵盖记忆、推理、强化学习、视觉语言模型、提示工程等多种主题。用户可通过Notion浏览器进行互动式查阅,迅速获取相关论文和项目链接,轻松了解LLM领域的最新研究动态,帮助研究人员和开发者高效获取前沿信息。

Project Cover

PromethAI-Backend

PromethAI是一个基于Python的开源AGI项目,能够根据用户的目标和偏好提供推荐,并基于用户反馈进行优化。主要功能包括支持自动化任务、低延迟、易于使用和部署等。系统目前专注于食品领域,但可以扩展至其他任何领域。PromethAI通过引入决策树帮助用户进行决策和执行任务,并支持多种向量数据库。需注意使用GPT-4模型可能产生高额成本,建议用户自行监控API使用情况。

Project Cover

AgentK

AgentK是一个模块化、自我演进的AGI系统,由Hermes、AgentSmith、ToolMaker和WebResearcher等多个智能体组成。这些智能体能够协作并按需构建新的智能体,以完成各种任务。系统基于LangGraph和LangChain框架开发,支持自我测试和工具创建,不断发展自身能力以应对各种挑战。

Project Cover

AGI-survey

AGI-survey项目系统梳理了人工通用智能(AGI)研究的前沿进展。项目覆盖AGI内部机制、接口设计、系统实现、对齐问题及发展路线等核心领域,汇总分析了大量相关论文。内容涉及AGI的感知、推理、记忆能力,及其与数字世界、物理世界和其他智能体的交互。此外,项目还探讨了AGI的评估方法和伦理考量,为AGI的发展提供全面参考。

Project Cover

Invisibility

Invisibility是一家专注于开发代理系统的AI实验室,致力于实现电脑操作的全面自动化。其首款产品通过跟踪软件流程和学习工作流程,创建智能自动化方案,消除重复操作。Invisibility开发的执行软件能精确模拟人类界面操作,无需API支持,为用户提供高效、便捷的自动化解决方案。

最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号