开放界面
使用大语言模型为所有计算机提供全自动驾驶
开放界面
- 通过向大语言模型后端(GPT-4V等)发送用户请求来自动驾驶计算机,以确定所需步骤。
- 通过模拟键盘和鼠标输入自动执行这些步骤。
- 通过向大语言模型发送计算机当前屏幕截图来进行纠正。
演示 💻
["在Google文档中为我制作一份膳食计划"]
更多演示
### 安装 💽
MacOS
- 从最新发布版本下载MacOS二进制文件。
- 解压文件并将Open Interface移动到应用程序文件夹。
Apple Silicon M系列Mac
-
Open Interface将要求获取辅助功能访问权限以操作您的键盘和鼠标,以及屏幕录制访问权限以截图评估其进度。
-
如果没有提示,请通过系统设置 -> 隐私与安全性手动添加这些权限
Intel Mac
-
从应用程序文件夹启动应用。
您可能会遇到标准Mac"无法打开Open Interface"错误。
在这种情况下,请按"取消"。
然后转到系统偏好设置 -> 安全性与隐私 -> 仍要打开。
-
Open Interface还需要辅助功能访问权限以操作您的键盘和鼠标,以及屏幕录制访问权限以截图评估其进度。
- 最后,查看设置部分以将Open Interface连接到LLM(OpenAI GPT-4V)
Linux
Windows
设置 🛠️
设置OpenAI API密钥
- 获取您的OpenAI API密钥 - Open Interface需要访问GPT-4V来执行用户请求。GPT-4V密钥可以从您的[OpenAI账户](https://platform.openai.com/)下载。 - [按照这里的步骤](https://help.openai.com/en/articles/8264644-what-is-prepaid-billing)向您的OpenAI账户充值。要解锁GPT-4V,需要最少支付5美元。 - [更多信息](https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4) - 在Open Interface设置中保存API密钥 - 在Open Interface中,进入右上角的设置菜单,将您从OpenAI获得的密钥输入到文本框中,如下所示:- 首次设置API密钥后,您需要重启应用程序。
可选:设置自定义LLM
- Open Interface支持使用其他OpenAI API风格的LLM(如Llava)作为后端,可以在高级设置窗口中轻松配置。
- 在高级设置窗口中输入自定义基础URL和模型名称,并根据需要在设置窗口中输入API密钥。
- 如果您的LLM不支持OpenAI风格的API,您可以使用像这个这样的库将其转换为支持的格式。
- 进行这些更改后,您需要重启应用程序。
它目前不擅长的任务 😬
- 准确的空间推理和点击按钮。
- 在表格环境中(如Excel和Google表格)跟踪自身位置,原因与上述类似。
- 导航复杂的GUI丰富的应用程序,如反恐精英、Spotify、Garage Band等,因为这些应用严重依赖光标操作。
未来 🔮
(通过训练更好的模型,使用视频教程如YouTube教程)
- "在Garage Band中为我的最新项目创建几个低音样本。"
- "阅读这份新功能的设计文档,编辑Github上的代码,并提交审核。"
- "从Spotify找出我朋友们的音乐品味,为今晚的活动创建一个派对播放列表。"
- "用我的太浩湖旅行照片在iMovie中制作一个《白莲花》风格的蒙太奇。"
注意事项 📝
- 成本:每次用户请求0.05 - 0.20美元。
(一旦GPT-4V启用助手/有状态模式,这个成本在不久的将来会大大降低) - 您可以随时通过按停止按钮或将光标拖到屏幕的任何角落来中断应用程序。
- 使用多个显示器时,Open Interface只能看到您的主显示器。因此,如果光标/焦点在辅助屏幕上,它可能会不断重试相同的操作,因为无法看到其进度(尤其是在使用Spotlight启动的MacOS中)。
系统图 🖼️
+----------------------------------------------------+
| 应用程序 |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (截图 + 目标) +-----------+ |
| | | --------------------> | | |
| | 核心 | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (指令) +-----------+ |
| | |
| v |
| +-------------+ |
| | 解释器 | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | 执行器 | |
| +-------------+ |
+----------------------------------------------------+
星标历史 ⭐️
链接 🔗
- 在AmberSah.dev查看我的更多项目。
- 其他演示和新闻资料可以在MEDIA.md中找到。