OSWorld项目介绍
OSWorld 是一个开源项目,旨在为开放式任务的多模态代理提供基准测试环境。该项目的核心目标是让研究人员和开发者能够在真实的计算机环境中测试和评估多模态人工智能代理的能力。这不仅涵盖了文本和图像识别,还涉及复杂的操作系统交互。
项目背景
OSWorld 致力于构建一个能够模拟真实计算机操作环境的虚拟环境,通过在 VMware、VirtualBox 或 Docker 上运行虚拟机,使用户能够安装和运行不同操作系统版本(例如 Ubuntu 和 Windows)。这为多模态智能体提供了多样化的、接近真实世界的操作场景。
项目更新动态
- 2024年10月22日:支持通过 Docker 在虚拟化平台上托管虚拟机。
- 2024年6月15日:对环境部分的代码进行重构,以支持 VMware 集成之外的平台,如 VitualBox、AWS 和 Azure。
- 2024年4月11日:发布了项目相关论文、环境和基准代码,以及项目页面。
安装指南
VMware/VirtualBox
对于非虚拟化环境(例如台式机、笔记本电脑或裸机),用户需要先克隆项目仓库,配置 Python 环境,并安装必要的依赖项。如果使用 Apple 芯片设备,建议安装 VMware Fusion。
Docker
对于非裸机服务器,或不愿使用 VMware 和 VirtualBox 平台的用户,Docker 是一个推荐的选择。在使用 Docker 时,需要确保机器支持 KVM(内核虚拟机),如果支持,可以轻松安装和运行测试。
快速开始
用户可以通过简单的 Python 代码与 OSWorld 环境进行交互。例如,运行 Python 脚本来模拟在虚拟机上安装 Spotify 的操作。这种可编程介入让用户能够直观地体验和测试他们的智能体与操作系统之间的交互。
实验与评估
OSWorld 提供了一套基准测试工具,允许用户测试多种截图方法下的基准代理表现。这些测试的结果,包括截图、动作和视频记录,能够帮助用户分析和改进智能体的任务执行效率。
常见问题解答
OSWorld 针对用户可能遇到的常见问题提供了解答,例如虚拟机的登陆信息、如何在虚拟机上配置代理以及如何进行 Google 服务的账号和凭证设置。
未来计划
OSWorld 团队不断致力于支持更多的功能,并增强平台的适用性和易用性。这个开源项目开放合作,欢迎社区的共同参与和贡献。
OSWorld 项目为研究人员和开发者提供了一个坚固的平台,以便在现实环境中同时评估多种人工智能能力的平台。对于那些在计算机看到一个高效、安全、开放且扩展性强的多模态人工智能基准测试环境者来说,OSWorld 是一个有力的工具。