self-operating-computer

使多模态模型能够操作计算机的框架

Self-Operating Computer 多模态模型 GPT-4o 键盘鼠标操作 API接口 Github 开源项目

Self-Operating Computer Framework通过模拟人类的视觉和手动操作，实现计算机的自动化控制。当前支持GPT-4o、Gemini Pro Vision、Claude 3和LLaVa多模态模型，并计划对更多模型开放兼容。适用于Mac OS, Windows和Linux系统。

文档

Gemini GPT AI - 多模态AI助手集成文本图像音视频处理功能

AI工具Gemini GPT AI人工智能助手内容生成多模态聊天机器人

Gemini GPT AI是一款多模态AI助手，集成处理文本、代码、音频、图像和视频功能。它能创建内容、编写代码、生成多媒体，提升工作效率。此工具免费使用，无需注册，支持多语言，保障用户隐私和数据安全。Gemini GPT AI为各行业专业人士提供生产力和创造力支持。

chatbot-app - 支持多种模型如GPT和Gemini Pro的AI应用程序

ChatBotCohereGPTGemini ProGithubOllama开源项目

这款应用支持多种AI模型，如GPT、Gemini Pro、Cohere和Ollama，注重隐私保护，数据均存储在本地。具有响应式设计和深色模式，功能包括语音对话、生成图片、长时间对话和ChatGPT代码解释器，支持多种语言。兼容iOS、Android、macOS等多平台，建议通过官方渠道下载以防密钥被盗。

robosuite - 基于MuJoCo的机器人学习仿真框架

GithubMuJoCorobosuite基准测试开源项目机器人学习模拟框架

robosuite是基于MuJoCo物理引擎的机器人学习仿真框架，提供标准化基准环境和模块化设计。框架包含多种机器人模型、抓手模型、控制器模式和标准化任务，支持程序化生成新环境、多模态传感和逼真渲染。robosuite为机器人智能研究提供了可靠、灵活的仿真平台，降低了前沿研究的门槛。

ControlLLM - 通过图搜索增强大语言模型工具使用能力实现复杂任务解决

ControlLLMGithub任务分解图搜索多模态工具大语言模型开源项目

ControlLLM框架通过图搜索方法提升大语言模型的多模态工具使用能力。其核心包括任务分解器、基于图的思维范式和执行引擎，有效解决复杂任务。该框架在图像、音频和视频处理等领域展现出高准确性和效率，为大语言模型应用开辟新途径。

CommanderGPT - 高效智能的桌面AI助手CommanderGPT

AI助手AI工具ChatGPTCommander GPT桌面应用生产力工具

CommanderGPT是Mac和Windows平台上的智能桌面助手，通过简单命令即可快速调用ChatGPT功能。这款工具可在任何应用程序上层运行，支持文本生成、图像创作、翻译和视频内容分析等多项功能。CommanderGPT致力于提升工作效率，使AI辅助更加便捷。此外，它还提供本地历史记录和自定义系统提示，为用户带来个性化的AI体验。

OPERA - 无需额外训练的多模态大语言模型幻觉缓解技术

GithubOPERA回顾分配策略多模态大语言模型幻觉缓解开源项目过度信任惩罚

OPERA是一种新型多模态大语言模型解码方法,通过引入过度信任惩罚和回顾分配策略缓解幻觉问题。该方法无需额外数据或训练,仅在beam search解码时添加惩罚项和回滚机制,即可改善模型知识聚合模式。实验表明,OPERA在多个模型和评估指标上均显著提升性能,展现出良好的有效性和通用性。这为提高多模态大语言模型在实际应用中的准确性提供了一种低成本解决方案。

Wechat-AI-Assistant - 在微信上与ChatGPT进行智能多模态交互

GithubOpenAI APIWechat AI Assistant多模态交互开源项目微信桌面客户端自动管理群聊

利用 WeChatFerry 库和 OpenAI Assistant API，实现微信中的智能多模态交互，包括文本、语音、图片和视频处理。支持文档检索、互联网搜索和任务自动化。适用于 Windows 电脑，无需实名认证，兼容性高，风险低。可与 OpenAI API 及必应搜索等工具集成，未来将扩展到企业微信和微信公众号。

LaVague - 开源大动作模型框架，用于开发AI Web代理

AI Web AgentsGithubLaVagueLarge Action ModelSelenium开源开源项目热门

LaVague 是一个开源的大动作模型框架，专为开发AI Web代理而设计。该框架通过世界模型和行动引擎，将用户的目标转化为执行指令，并通过Selenium或Playwright执行这些操作。LaVague 支持自定义配置、令牌计数、日志工具，还提供了Gradio交互界面。适用于高效自动化Web任务的开发者和技术专家。

FineChat.ai - 探索GPT4o的高级AI对话功能与多模态处理能力

AI工具AI语言模型Chat GPT4o内容生成多模态能力自然语言处理

FineChat.ai是一个第三方平台，提供GPT4o的在线访问。GPT4o作为先进的AI语言模型，具备强大的文本生成和理解能力，支持多模态输入处理，并拥有更长的上下文长度。用户可以无需登录直接使用，开发者则可通过API集成GPT4o功能。该平台为用户提供了便捷高效的方式，以体验和应用GPT4o的先进特性，适用于内容创作、文档分析、客户支持等多种场景。

ai_webui - AI-WEBUI 多功能图像音频视频处理平台

AI-WEBUIAI创作平台Github图像处理开源项目视频处理音频处理

AI-WEBUI是一个开源的通用AI创作平台，集成图像分割、物体追踪、语音识别等基础功能，以及聊天机器人、视频翻译等高级功能。支持ChatGLM2、SAM和Whisper等多种AI模型，可显著提高短视频创作效率。通过简单的界面操作，用户能轻松完成复杂AI任务，适合个人和专业用户使用。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com