OmniParser是一个旨在提高基于视觉的用户界面(GUI)智能代理理解能力的工具。这项技术的核心是将用户界面的截屏解析为结构化且易于理解的元素,从而显著提升GPT-4V在这些界面中生成动作的能力,并确保其操作能够准确地对应到界面的相关区域。
项目的最新进展包括在2024年10月发布了用于检测界面可交互区域的模型以及图标功能描述模型。同时,OmniParser在Windows Agent Arena上取得了最佳性能,这证明了其在解析用户界面的出色能力。
对于那些希望在本地环境中使用OmniParser的人,可以按照以下步骤进行安装。首先,需要创建一个Python环境,安装必需的依赖项。然后,需要从Huggingface下载模型权重文件,将其放置在指定的目录中,最后将safetensor文件转换为.pt格式。
OmniParser还提供了一些简单的示例,供用户参照使用,用户可以在demo.ipynb中查看这些示例。此外,该项目支持Gradio Demo,只需运行一个简单的Python脚本,即可体验OmniParser的功能。
如果希望对该项目进行深入研究或引用该工作,OmniParser的技术报告可在arXiv上查阅。项目的研究团队希望,如果有人发现OmniParser的工作具有帮助并且希望引用,请使用提供的引用格式。
OmniParser的开发团队由Yadong Lu、Jianwei Yang、Yelong Shen和Ahmed Awadallah组成,他们分别在计算机视觉和人机交互领域拥有丰富的经验,通过这项工具,他们希望推动基于视觉的智能GUI代理的发展。