自操作计算机框架
一个使多模态模型能够操作计算机的框架。
使用与人类操作员相同的输入和输出,模型通过观察屏幕并决定一系列鼠标和键盘操作以达到目标。
主要特点
- 兼容性:设计用于各种多模态模型。
- 集成:目前集成了GPT-4o,Gemini Pro Vision,Claude 3和LLaVa。
- 未来计划:支持更多的模型。
持续开发
在HyperwriteAI,我们正在开发Agent-1-Vision,这是一种具有更精确点击位置预测的多模态模型。
Agent-1-Vision模型API访问
我们即将提供对Agent-1-Vision模型的API访问。
如果您有兴趣获得此API访问权限,请在此处注册。
演示
运行自操作计算机
- 安装项目
pip install self-operating-computer
- 运行项目
operate
- 输入您的OpenAI密钥:如果没有,您可以在这里获取一个OpenAI密钥。
- 给予Terminal应用程序所需权限:最后一步,Terminal应用程序将要求在Mac的“系统偏好设置”的“安全与隐私”页面中获得“屏幕录制”和“辅助功能”的权限。
使用operate
模式
多模态模型 -m
现在,另一个模型与自操作计算机框架兼容。按照以下说明尝试Google的gemini-pro-vision
模型。
使用Gemini模型启动operate
operate -m gemini-pro-vision
在终端提示时输入您的Google AI Studio API密钥 如果没有,您可以在设置Google AI Studio帐户后在这里获取一个密钥。您可能还需要为桌面应用程序授权凭据。我花了一些时间才让它正常工作,如果有人知道更简单的方法,请提交PR。
尝试Claude -m claude-3
使用Claude 3和Vision看看它在操作计算机方面与GPT-4-Vision相比如何。导航到Claude仪表板获取一个API密钥并运行以下命令进行尝试。
operate -m claude-3
尝试Ollama托管的LLaVa -m llava
如果您希望在自己的机器上使用LLaVA进行自操作计算机框架实验,可以使用Ollama!
注意:Ollama目前仅支持MacOS和Linux
首先,从https://ollama.ai/download 在您的机器上安装Ollama。
一旦安装了Ollama,拉取LLaVa模型:
ollama pull llava
这将下载大约5 GB的模型到您的机器上。
当Ollama完成拉取LLaVa后,启动服务器:
ollama serve
就是这样!现在启动operate
并选择LLaVa模型:
operate -m llava
重要提示: 使用LLaVa时的错误率非常高。这仅作为一个基础,以便随着本地多模态模型的改进而建立。
在其GitHub仓库了解更多关于Ollama的信息。
语音模式 --voice
该框架支持目标的语音输入。请按照以下说明尝试语音模式。 克隆仓库到计算机上的一个目录:
git clone https://github.com/OthersideAI/self-operating-computer.git
进入目录:
cd self-operating-computer
安装附加的requirements-audio.txt
pip install -r requirements-audio.txt
安装设备要求 对于Mac用户:
brew install portaudio
对于Linux用户:
sudo apt install portaudio19-dev python3-pyaudio
以语音模式运行
operate --voice
光学字符识别模式 -m gpt-4-with-ocr
自操作计算机框架现在集成了光学字符识别(OCR)功能,使用gpt-4-with-ocr
模式。此模式为GPT-4提供了一组以坐标为单位的可点击元素的哈希图。GPT-4可以决定点击文本元素,代码则引用哈希图以获取GPT-4希望点击的元素的坐标。
基于最近的测试,OCR比som
和普通的GPT-4表现更好,因此我们使其成为项目的默认模式。要使用OCR模式,只需输入:
operate
或 operate -m gpt-4-with-ocr
同样可以工作。
标记集提示 -m gpt-4-with-som
自操作计算机框架现在支持带有gpt-4-with-som
命令的标记集(SoM)提示。这种新的视觉提示方法增强了大型多模态模型的视觉基础能力。
在详细的arXiv论文中了解更多关于SoM提示的信息:点击这里。
对于这个初始版本,一个简单的YOLOv8模型被训练用于按钮检测,best.pt
文件被包括在model/weights/
目录下。用户被鼓励替换他们的best.pt
文件以评估性能改进。如果您的模型性能优于现有模型,请通过创建PR来贡献。
使用SoM模型启动operate
operate -m gpt-4-with-som
欢迎贡献!:
如果您想自己做出贡献,请参阅CONTRIBUTING.md。
反馈
对于改进此项目的任何建议,请随时在Twitter上联系Josh。
加入我们的Discord社区
要进行实时讨论和社区支持,请加入我们的Discord服务器。
- 如果您已经是成员,请在#self-operating-computer频道加入讨论。
- 如果您是新成员,请先加入我们的Discord服务器,然后导航到#self-operating-computer频道。
关注HyperWriteAI获取更多更新
跟随最新的开发进展:
兼容性
- 该项目与Mac OS、Windows和Linux(安装了X服务器)兼容。
OpenAI限流注意
需要gpt-4o
模型。要解锁访问此模型,您的账户需要在API信用上消费至少$5。预付款将解锁访问权,如果您还没有花费到最低$5。
了解更多**点击这里**