self-operating-computer

使多模态模型能够操作计算机的框架

Self-Operating Computer 多模态模型 GPT-4o 键盘鼠标操作 API接口 Github 开源项目

Self-Operating Computer Framework通过模拟人类的视觉和手动操作，实现计算机的自动化控制。当前支持GPT-4o、Gemini Pro Vision、Claude 3和LLaVa多模态模型，并计划对更多模型开放兼容。适用于Mac OS, Windows和Linux系统。

文档

GPT 4o - 突破性多模态AI模型现已免费开放

AI工具GPT 4oOpenAI人工智能多模态模型语音交互

paper2gui - 无缝集成AI技术的多功能桌面应用工具箱

AI应用GithubPaper2GUI图像风格化开源项目热门目标检测视频超分辨

Paper2GUI是一个为普通用户设计的AI驱动桌面应用工具箱，支持Windows、Mac和Linux系统。提供40+ AI模型，覆盖AI绘画、语音合成、视频补帧等多种功能。用户可享受免安装、即开即用的便捷体验，特别适用于希望轻松利用AI技术的生产力用户。

automata - 自主编程AI系统，为开发者提供实时代码和文档生成

AGIAutomataGithub代码生成开源项目自律系统自编程AI

Automata旨在成为一个完全自主、自我编程的AI系统，结合GPT-4和向量数据库，实现记录、搜索和编写代码。自动生成代码和文档，提升程序员的生产力，并探索AI和计算机科学的基本问题。项目提供详细的安装和使用指南、示范代码、贡献指南以及未来发展目标。

unified-io-2 - 跨模态人工智能的开源新标杆

GithubUnified-IO 2人工智能多模态模型开源项目机器学习深度学习

Unified-IO 2是一个开源的多模态AI框架，集成视觉、语言、音频和动作处理能力。项目提供完整代码支持演示、训练和推理，适用于TPU和GPU环境。基于T5X优化，内含多规格预训练模型和丰富数据集。其跨模态学习和生成能力为AI研究与应用提供了新的可能性。项目采用模块化设计，便于研究人员和开发者进行二次开发和定制。Unified-IO 2支持多种数据格式和预处理流程，为不同任务场景提供灵活解决方案。其开源性质促进了AI社区的协作与创新，为多模态AI技术的进步做出贡献。

CogCoM - 链式操作助力视觉语言模型精细化理解

AI推理Chain of ManipulationsCogCoMGithub多模态开源项目视觉语言模型

CogCoM是一个新型视觉语言模型，采用链式操作技术逐步处理复杂视觉问题。该项目包含6种基本操作、级联数据生成流程和多轮多图像模型架构。CogCoM在对话、描述、定位和推理等方面表现出色，并在GQA、TallyVQA等多项基准测试中取得优异成绩。这个开源项目为研究人员提供了完整的代码、模型和数据集，促进了视觉语言模型在细节理解领域的发展。

OSWorld - 多平台兼容的虚拟环境与基准测试工具

AI代理GPT-4VGithubOSWorld开源项目桌面环境虚拟化平台

OSWorld项目提供多平台兼容的虚拟环境和基准测试工具，支持AWS、Azure、VirtualBox等。通过详细的安装指南和快速启动示例，用户可轻松配置和运行环境。项目包含最新的代码重构与平台扩展，并发布了相关论文和项目页面，提供全面的技术支持和资源。

GodMode - 一站式AI聊天浏览器，快捷访问顶尖Web应用

AI聊天浏览器GithubGodMode多模型支持开源项目源代码构建热门键盘快捷键

GodMode是一款专门的AI聊天浏览器，用户可以通过简单的键盘快捷键(Cmd+Shift+G)快速访问ChatGPT、Claude 2、Perplexity等多个顶尖Web应用。该项目支持从源码构建，提供多种自定义选项，包括快捷键自定义、模型切换和暗/亮模式切换，目前已添加对Windows和Linux的支持。GodMode不仅提供高效的聊天体验，还不设付费墙，是科技爱好者和开发人员的理想选择。

openvla-7b - 基于视觉和语言的开源机器人动作生成模型

GithubHuggingfaceOpenVLA图像文本处理开源项目机器人控制机器学习模型视觉语言行为模型

OpenVLA-7B是一个开源的视觉-语言-动作模型，基于97万个机器人操作数据训练。该模型将语言指令和摄像机图像转化为机器人动作，支持多种机器人控制，并可通过微调适应新任务。OpenVLA-7B采用MIT许可证，适用于零样本指令执行和新领域迁移。

gptscript - 连接大语言模型与多元系统的开源框架

GPTScriptGithubOpenAI大型语言模型开源项目框架系统交互

GPTScript是一个开源框架，旨在促进大语言模型与多样化系统的互动。它支持本地执行文件、OpenAPI应用、SDK库和RAG解决方案等多种系统类型。开发者通过简洁的提示即可实现LLM与本地或远程系统的集成。GPTScript具备多种应用场景，如CLI交互、API调用、文件操作和自动化流程。该框架兼容MacOS、Linux和Windows，安装便捷，为LLM应用开发提供了灵活高效的工具支持。

JARVIS - 介绍JARVIS项目的最新研究与开发进展

AI任务GPT-4GithubHuggingGPTJARVIS任务自动化开源项目

JARVIS项目专注于人工通用智能(AGI)的研究，提供最新的技术和工具。最新发布的EasyTool简化了工具的使用，TaskBench用于评估大型语言模型的任务自动化能力。项目支持本地、远程和混合模式的部署，满足不同配置需求。通过ChatGPT进行任务规划、模型选择、任务执行和响应生成，整合多个专业模型解决复杂的AI任务。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com