Project Icon

ScreenAgent

由视觉语言大模型驱动的电脑控制工具

ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境,允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段,使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集,支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型,并提供简化体验的网页版客户端。

OpenAgents - 语言代理开放平台
Data AgentGithubOpenAgentsPlugins AgentWeb Agent开源项目语言智能代理
OpenAgents是一个开放型语言代理平台,通过聊天界面提供数据分析、插件整合及网页浏览功能。其支持快速易部署的代码结构和用户友好的Web界面,配备丰富的定制选项,适合技术开发者和普通用户。平台现有三种代理,分别优化数据操作、提供多样插件和自动化网页导航,适用于多场景应用。
search-agents - 树搜索算法助力语言模型智能体优化网页交互决策
AI代理GithubTree SearchVisualWebArena开源项目网页环境语言模型
这个开源项目开发了一种创新的树搜索算法,提升了语言模型智能体在网页环境中的探索和规划能力。该方法在VisualWebArena和WebArena基准测试中得到验证,支持GPT-4和Llama-3等多种模型。项目提供完整文档,包括安装指南、评估流程和基线复现方法,为研究人员和开发者提供了实用工具。
visualwebarena - 真实视觉网络任务评估多模态智能体表现的基准平台
AI评估GPT-4VGithubVisualWebArena多模态代理开源项目视觉网页任务
VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务,全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法,提供端到端训练和环境重置功能,支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据,方便研究人员进行分析和评估。
AgentPilot - 多代理AI交互平台 支持分支对话和代码执行
AI代理Agent PilotGithub代码解释器多代理聊天开源桌面应用开源项目
AgentPilot是一款开源桌面应用,支持创建和管理多个AI代理,实现多代理交互和分支对话。该应用通过LiteLLM集成多家提供商的模型,允许用户使用自有密钥和数据。内置Open Interpreter功能可执行代码,还提供上下文块管理、工具创建和插件扩展等特性。AgentPilot为用户提供了一个灵活的AI交互环境。
Test-Agent - 智能测试助理助力软件质量提升
GithubTest-AgentTestGPT-7B大模型开源项目测试用例生成质量技术
Test-Agent是一个开源的智能测试助理项目,融合大模型与质量工程技术。它提供多语言测试用例生成和Assert补全功能,支持Java、Python和JavaScript。项目开源的TestGPT-7B模型在用例执行通过率和场景覆盖方面表现优异。Test-Agent支持本地部署,保障数据安全。未来将持续迭代,扩展更多测试应用场景和模型规模。
rci-agent - 智能代理利用语言模型解决计算机任务
GithubMiniWoB++RCI Agent开源项目自然语言计算机任务语言模型
RCI Agent是一个基于预训练语言模型的智能代理,专门用于执行MiniWoB++基准测试中的计算机任务。该项目采用RCI提示方案优化输出,在样本效率方面表现出色。相比其他模型,RCI Agent使用更少的样本即可达到仅次于CC-Net的性能。这一研究成果展示了大型语言模型在解决通用计算机任务中的潜力,为克服专家演示获取和奖励函数定义等挑战提供了新思路。
microagents - 动态生成和储存基于微服务的自我改进代理
AI自我改进GPT-4 TurboGithubMicroagentsPythonText-Embedding-Ada-002开源项目
Microagents是一个实验框架,通过动态生成基于微服务的自我改进代理来响应用户任务。这些代理经过验证后进行存储,能在多次对话中学习独立推测任务执行方法。此项目采用Python和OpenAI的GPT-4 Turbo构建,支持并行处理和预训练代理,提供命令行和Gradio为基础的两种用户界面,并通过SQLite进行持久化存储,增强了代理的记忆功能。目前已发布第一个版本v0.1.0,欢迎社区贡献。
Pipeless Agents - 视觉AI平台,三步创建代理实现智能视频分析
AI代理AI工具自动化视频处理计算机视觉隐私保护
Pipeless Agents是一个创新的计算机视觉平台,通过简单的三步流程实现视觉AI代理的创建。平台支持多种视频输入源,自动提取结构化数据和事件,并允许用户自定义代理逻辑。这使得Pipeless Agents能够应用于工业安全、办公管理、家庭自动化和智慧城市等多个领域。该平台还特别注重数据隐私和安全,提供无录像处理、自定义区域分析和端到端加密等功能,确保用户数据的安全性。
Open Agent Studio - 创新的自动化流程编辑平台
AI工具Open Agent StudioRPA人工智能无代码编辑器自动化
Open Agent Studio推出创新自动化概念,采用简单语言构建稳定流程。平台支持录制功能,轻松创建代理并解决复杂问题。它为企业开拓新市场,同时为小型企业提供公平竞争机会,通过个性化服务和独特数据建立竞争优势。
ScreenApp - 一站式AI音视频录制转录和智能分析平台
AIAI工具ScreenApp录音总结转录
ScreenApp集成了AI驱动的屏幕、音频和视频录制功能,可自动生成文字稿、摘要和笔记。通过智能分析、总结和翻译等AI功能,用户可以快速提取关键信息。该工具适用于会议记录、教育培训和客户支持等多种场景,有效提升工作效率。ScreenApp还支持与录制内容进行对话式互动,为用户提供全方位的音视频处理解决方案。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号