Project Icon

OmAgent

多模态智能代理系统实现复杂视频理解

OmAgent是一个多模态智能代理系统,结合多模态大语言模型和算法来完成复杂任务。系统包含轻量级智能代理框架omagent_core和三个核心组件:Video2RAG、DnCLoop和Rewinder Tool。OmAgent突破视频长度限制,实现长视频理解、任务分解和信息检索。这一开源项目为研究和开发多模态应用提供了有力工具。

CogVLM - 开源视觉语言模型,提升图像理解与跨模态对话功能
CogAgentCogVLMGithub图像理解多回合对话开源项目跨模态基准测试
CogVLM和CogAgent是领先的开源视觉语言模型,专注于图像理解和跨模态任务。CogVLM-17B拥有100亿视觉参数和70亿语言参数,并在NoCaps、Flicker30k等十个经典跨模态基准测试上表现出色。CogAgent在CogVLM的基础上改进,增添了GUI图像代理能力,支持1120*1120分辨率的图像理解,并在VQAv2、TextVQA等九个基准测试中表现优秀。该项目提供详细的技术文档、示例代码和Web演示,用户可以方便地进行模型推理和微调。了解更多信息,请访问项目主页。
agentlego - 多模态工具扩展及集成的开源库
AgentLegoGithub图像生成大语言模型开源项目视觉感知语音处理
AgentLego是一个提供多种工具API的开源库,旨在增强基于大语言模型的代理功能。它支持多模态工具,如视觉感知、图像生成与编辑、语音处理等,且易于集成到LangChain、Transformers Agents和Lagent等框架中。同时,AgentLego支持远程访问和工具服务,适用于需要大型机器学习模型或特定环境的应用。
cogagent-chat-hf - 视觉多轮对话及GUI代理开源模型
CogAgentCogVLMGUI操作GithubHuggingface图像理解开源项目模型跨模态基准
CogAgent是一款基于CogVLM改进的开源视觉语言模型,支持超高分辨率图像输入与OCR任务。在VQAv2等跨模态测试表现优秀,免费供学术研究,商业使用需注册许可。
ProAgent - 将人工智能引入流程自动化的创新方案
GithubProAgent人工智能大语言模型工作流开源项目自动化
ProAgent项目引入了代理流程自动化(APA)概念,将大型语言模型应用于工作流程的构建和执行。该系统能够理解人类指令,自主设计工作流程,并通过协调多个专门代理来处理复杂任务。相比传统的机器人流程自动化(RPA),ProAgent在处理需要人类智能的任务方面展现出显著优势。这一创新方法不仅提高了自动化水平,还为未来智能化流程管理开辟了新的研究方向。
project-oagents - 事件驱动AI代理框架赋能智能系统开发
.NETAI AgentsGitHubGithubOrleansSemantic Kernel开源项目
project-oagents是基于Semantic Kernel和Orleans构建的.NET框架,专注于创建和托管事件驱动AI代理。框架提供GitHub开发团队、营销团队和客户支持中心等示例,展示其在需求工程、规划和编码自动化方面的应用。目前处于实验阶段,项目遵循Microsoft开源准则,欢迎开发者参与贡献。
agentUniverse - 基于大语言模型的多代理框架,简化企业协作
GithubagentUniverse协作模式多智能体开源项目领域专业知识高效解决方案
agentUniverse是一款灵活且易扩展的多代理框架,通过专用组件解决多领域问题,帮助开发者和企业构建高级协作代理。其独特的PEER模式和DOE模式,有效分解复杂任务,提升了数据密集型和高计算精度任务的执行效果。agentUniverse支持快速部署和代理构建,并已在多种行业中验证,未来将持续扩展新模式,增强领域知识集成与专业化定制。
agentscope - 大型模型支持的多智能体应用开发平台
APIAgentScopeGithub分布式多智能体应用大规模模型开源项目
AgentScope是一个先进的多智能体平台,专为开发人员构建基于大规模模型的多智能体应用而设计。该平台易于使用,并配备全面的组件和详尽的文档,同时提供定制的容错控制和重试机制以增强应用的稳定性。其分布式架构简化了多智能体系统的开发流程,提高了开发效率。
rci-agent - 智能代理利用语言模型解决计算机任务
GithubMiniWoB++RCI Agent开源项目自然语言计算机任务语言模型
RCI Agent是一个基于预训练语言模型的智能代理,专门用于执行MiniWoB++基准测试中的计算机任务。该项目采用RCI提示方案优化输出,在样本效率方面表现出色。相比其他模型,RCI Agent使用更少的样本即可达到仅次于CC-Net的性能。这一研究成果展示了大型语言模型在解决通用计算机任务中的潜力,为克服专家演示获取和奖励函数定义等挑战提供了新思路。
IoA - 多元AI代理协作平台,实现高效任务管理
AI代理GithubInternet of Agents开源框架开源项目异构代理异步任务执行
IoA是一个开源框架,旨在通过互联网风格的架构让不同AI代理协同工作,解决复杂任务。该平台支持自主团队形成、多任务执行和灵活对话管理。安装简单且支持扩展,适用于科研和应用开发。
agents - 轻量级AI代理开发框架
GithubGlobe Agent FrameworksLLM编程上下文管理代码生成开源框架开源项目
Globe Agent Frameworks提供了一系列精简的LLM提示和编程技术。该项目通过最小化可复制的代码示例,展示了AI代理编程的核心概念,包括内部独白、目标导向编程和结构化输出。此外,它还包含上下文管理和代码生成的示例。开发者可以通过复制和修改这些代码来创建自定义AI代理解决方案。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号