自操作计算机框架项目介绍
项目背景
自操作计算机框架(Self-Operating Computer Framework)是一个旨在让多模态模型像人类操作员一样使用计算机的框架。这一框架通过让模型观察屏幕并决定一系列鼠标及键盘动作,从而实现特定目标,整个过程与人类使用计算机的输入输出方式一致。
关键特性
- 兼容性:设计用于多种多模态模型。
- 集成性:目前已集成了GPT-4o、Gemini Pro Vision、Claude 3和LLaVa模型。
- 未来计划:计划支持更多的模型。
持续开发
在HyperWriteAI,我们正在开发一种名为Agent-1-Vision的多模态模型,该模型具备更精准的点击位置预测能力。我们即将提供该模型的API接入,如果有兴趣获得API访问权限,可在线申请。
运行自操作计算机
- 安装项目
pip install self-operating-computer
- 运行项目
operate
- 输入OpenAI Key:如果没有,可以在此处获取OpenAI key。
- 授予终端应用必要权限:最后步骤中,终端应用将要求“屏幕录制”和“辅助功能”的权限配置,需要在Mac系统的“安全与隐私”设置中进行配置。
操作模式
多模态模型模式 -m
用户可以选择与自操作计算机框架兼容的其他模型,如使用Google的gemini-pro-vision
模型或Claude 3来感受不同模型在计算机操作中的表现。切换到想要使用的模型,只需运行如下命令:
对于Gemini模型:
operate -m gemini-pro-vision
对于Claude 3:
operate -m claude-3
对于LLaVA模型(在Ollama上托管):
operate -m llava
语音模式 --voice
框架支持语音输入以确定操作目标,用户可以通过以下步骤使用此模式:
克隆仓库至本地目录:
git clone https://github.com/OthersideAI/self-operating-computer.git
进入目录并安装音频需求:
pip install -r requirements-audio.txt
安装设备需求后,运行语音模式:
operate --voice
光学字符识别模式 -m gpt-4-with-ocr
框架集成了OCR功能,GPT-4可以通过阅读文本来决定点击哪些元素。启动此模式只需运行:
operate -m gpt-4-with-ocr
标记集合提示模式 -m gpt-4-with-som
为了增强模型的视觉定位能力,框架支持通过 YOLOv8 模型进行按键检测来引导点击操作。运行这个模式可以使用如下命令:
operate -m gpt-4-with-som
参与贡献
欢迎大家对项目进行贡献,具体可以参考项目中的贡献指南。
反馈与社区
如需提供反馈意见,可在Twitter联系Josh。同时,我们邀请大家加入Discord社区进行实时讨论和支持。可以通过此链接加入我们的Discord服务器。
关注更多更新
关注HyperWriteAI了解最新的项目动态:
兼容性
该项目兼容Mac OS、Windows和Linux(需安装X服务器)。