自主智能体相关优秀论文集
这是一个关注自主智能体的最新论文集合。以下是维基百科对智能体的定义:
在人工智能领域,智能体是以智能方式行动的主体;它感知环境,自主采取行动以实现目标,并可能通过学习或获取知识来提高其表现。智能体可以简单或复杂:恒温器或其他控制系统被认为是智能体的一个例子,人类也是,任何符合定义的系统都是,如公司、国家或生物群落。
因此,智能体的关键在于它能够实现目标、获取知识和持续改进。 这个集合不考虑传统强化学习研究中的智能体。 虽然基于大语言模型的智能体近期受到关注,但基于强化学习的智能体也有其特殊地位。 具体而言,本仓库关注两类智能体:基于强化学习的智能体和基于大语言模型的智能体。
请注意,这个论文列表正在积极维护中。如果你发现有任何符合主题但遗漏的论文,欢迎开issue提出。
更新历史
- 2024/01/31: 增加了一个关于自主智能体调查的特别列表。
- 2023/12/08: 添加了ICML'23和ICLR'23接收的论文 :rocket:
- 2023/11/08: 添加了NeurIPS'23接收的论文。为这些接收的论文添加了相关链接(项目页面或github) :tada:
- 2023/10/25: 根据研究主题对所有论文进行分类。查看目录了解分类标准 :clap:
- 2023/10/18: 发布第一版集合,包括提交给ICLR 2024的论文 :rocket:
目录
调查
基于强化学习的智能体
指令跟随
- [NeurIPS'23] 自然语言条件强化学习与内部外部任务语言开发和翻译
- [NeurIPS'23] 用自适应多模态奖励引导你的智能体 [项目]
- 使用语言模型和强化学习进行组合指令遵循
- RT-1:用于大规模真实世界控制的机器人Transformer [博客]
- RT-2:视觉-语言-动作模型将网络知识转移到机器人控制 [博客]
- 开放X-具身:机器人学习数据集和RT-X模型 [博客]
- [NeurIPS'23] 用自适应多模态奖励引导你的智能体 [项目]
- LEO:3D世界中的具身通用智能体 [项目]
基于世界模型构建智能体
- [ICLR'23 Oral] Transformer是样本高效的世界模型 [代码]
- 学习用语言建模世界
- MAMBA:一种有效的元强化学习世界模型方法
语言作为知识
大语言模型作为工具
- [NeurIPS'23] 使用对比提示集合对具身智能体进行高效的策略适应
- [ICLR'23] 用语言模型设计奖励 [代码]
- [ICML'23] RLang:一种用于描述部分世界知识的声明式语言,用于强化学习智能体 [海报]
- [ICML'23] 具身智能体是否会梦见像素化的羊:使用语言引导的世界建模进行具身决策 [项目][代码]
- [ICML'23] 通过在线强化学习将大型语言模型应用于交互式环境
- 利用大型语言模型优化文本多智能体强化学习中的协调
- Text2Reward:用语言模型为强化学习生成密集奖励
- 语言到奖励:用于机器人技能合成的奖励
- Eureka:通过编码大型语言模型实现人级奖励设计
- STARLING:使用大型语言模型对基于文本的强化学习智能体进行自监督训练
跨任务泛化
持续学习
- ADAPTER-RL:使用强化学习适应任何智能体
- 用于交互式指令跟随智能体的在线持续学习
- [NeurIPS'23] 持续强化学习的定义
结合强化学习和大语言模型
- [NeurIPS'23] 大型语言模型是半参数强化学习智能体
- RoboGPT:为日常指令任务做出具身长期决策的智能智能体
- 语言智能体能否接近强化学习的表现?对OpenAI Gym的实证研究
- RLAdapter:将大型语言模型连接到开放世界的强化学习
基于Transformer的策略
- [NeurIPS'23] Transformer智能体的跨集训练课程. [项目]
轨迹到语言
- [NeurIPS'23] State2Explanation:基于概念的解释以促进智能体学习和用户理解
- [NeurIPS'23] 语义HELM:强化学习的人类可读记忆
- [ICML'23] 将互联网规模的视觉-语言模型蒸馏到具身智能体中
- 理解你的智能体:利用大型语言模型进行行为解释
轨迹预测
其他
基于大语言模型的智能体
多模态
- [ICML'23] PaLM-E:一个具身的多模态语言模型
- Steve-Eye:在开放世界中为基于大语言模型的具身智能体配备视觉感知
- 使用指令微调的基础模型进行多模态网络导航
- 你只需看屏幕:多模态动作链智能体
- 从指令、探索和环境反馈中学习具身视觉-语言编程
- 3D世界中的具身通用智能体
- JARVIS-1:使用记忆增强的多模态语言模型的开放世界多任务智能体
训练大语言模型以实现泛化和适应
- [NeurIPS'23] 描述、解释、计划和选择:与大语言模型的交互式规划使开放世界多任务智能体成为可能
- [NeurIPS'23] SwiftSage:一个具有快速和缓慢思考能力的生成式智能体,用于复杂交互任务 [Github]
- 重新思考信息市场中买家检查悖论的语言智能体方法
- 形式定理证明的语言智能体方法
- 智能体指导大语言模型成为通用零样本推理器
- Minecraft中的幽灵:通过具有基于文本知识和记忆的大语言模型实现Minecraft的分层智能体
- PaperQA:用于科学研究的检索增强生成智能体
- 语言智能体大规模检测文本到图像模型中的隐含刻板印象
- Suspicion-Agent:利用具有心智理论意识的GPT-4玩不完全信息游戏
多智能体(如社会、合作)
- 使用大语言模型模块化构建合作性具身智能体
- OKR-Agent:一个以目标和关键结果为导向的智能体系统,具有分层自我协作和自我评估
- MetaGPT:多智能体协作框架的元编程
- AutoAgents:自动智能体生成框架
- 动态LLM-Agent网络:一个具有智能体团队优化的LLM-agent协作框架
- AgentVerse:促进多智能体协作并探索涌现行为
- 探索LLM智能体的协作机制:社会心理学视角
- REX:AI智能体的快速探索和利用
- 大语言模型基础智能体社会中社会规范的涌现
实验分析
- 使用LM模拟沙盒识别LM智能体的风险
- 评估大语言模型的多智能体协调能力
- 大语言模型作为游戏智能体
- 将大语言模型作为AI研究智能体的基准测试
- 面向任务的语言智能体的自适应环境建模
- CLIN:一个持续学习的语言智能体,用于快速任务适应和泛化
基准测试和数据集
- [ICLR'23] 人类和语言模型中的任务歧义 [代码]
- SmartPlay:作为智能智能体的LLMs基准测试
- AgentBench:评估LLMs作为智能体
- 用行动证明你的话:在拍卖场景中评估LLM智能体的战略规划和执行
- SOTOPIA:语言智能体社会智能的交互式评估
- SocioDojo:使用真实世界文本和时间序列构建终身分析智能体
- WebArena:用于构建自主智能体的真实网络环境
- LLM-Deliberation:使用交互式多智能体谈判游戏评估LLMs
- 评估大语言模型在评估指令遵循方面的能力
- CivRealm:决策智能体的学习与推理奥德赛
应用
算法设计
- [ICLR'23 口头报告] ReAct:协同语言模型的推理和行动 [代码]
- [NeurIPS'23] AdaPlanner:基于反馈的语言模型自适应规划 [github]
- Prospector:通过自我提问和轨迹排序改进LLM智能体
- 正式规定基于LLM的智能体的高级行为
- 大语言模型的累积推理
与强化学习结合
- [NeurIPS'23] Reflexion:具有口头强化学习的语言智能体 [代码]
- 通过强化学习教导LLMs教授自己更好的指令
- 利用强化学习的语言智能体在狼人游戏中进行战略性游戏