基于大型语言模型的游戏智能体综述

🔥 基于大型语言模型的游戏智能体必读论文。

💫 每周持续更新。 (最近更新：2024/08/11)

[2019/09] 交互式小说游戏：巨大的冒险 AAAI 2020 [论文] [代码]
[2020/10] ALFWorld：对齐文本和实体环境以进行交互式学习 ICLR 2021 [论文][代码]
[2022/03] 科学世界：你的智能体比五年级学生聪明吗？ EMNLP 2022 [论文] [代码]
[2022/10] ReAct：协同语言模型中的推理和行动 ICLR 2023 [论文] [[代码](https://github.com/ysymyth/ReAct]
[2023/03] Reflexion：具有语言强化学习的语言智能体 NeurIPS 2023 [论文] [代码]
[2023/04] 大型语言模型能否很好地玩文字游戏？当前技术水平和未解问题 arXiv [论文]
[2023/05] SwiftSage：一个具有快慢思维能力的生成智能体，用于复杂交互任务 NeurIPS 2023 [论文] [代码]
[2023/10] FireAct：面向语言智能体的微调 arXiv [论文][代码]
[2023/11] ADaPT：语言模型的按需分解和规划 arXiv [论文][代码]
[2024/02] 软自洽性提升语言模型智能体性能 arXiv [论文][代码]
[2024/02] 通过行动学习赋能大型语言模型智能体 arXiv [论文][代码]
[2024/03] KnowAgent：基于知识增强的LLM智能体规划 arXiv [论文][代码]
[2024/03] 语言引导的文本环境强化学习智能体探索 arXiv [论文][代码]
[2024/03] 尝试和错误：基于探索的LLM智能体轨迹优化 ACL 2024 [论文][代码]
[2024/04] 从失败中学习：在微调大型语言模型作为智能体时整合负面示例 arXiv[论文][代码]
[2024/04] ReAct遇上ActRe：当语言智能体享受训练数据自主权 [论文]
[2024/05] 具有世界知识模型的智能体规划 arXiv [论文][代码]
[2024/05] THREAD：通过递归生成进行深层思考 arXiv [论文]
[2024/06] 密切关注每一步！通过迭代步骤级流程改进的LLM智能体学习 arXiv [论文][代码]

视频冒险游戏

[2023/09] Motif: 来自人工智能反馈的内在动机 ICLR 2024 [论文] [代码]
[2024/03] Cradle: 赋能基础智能体实现通用计算机控制 arXiv [论文][代码]
[2024/03] 使用大语言模型玩NetHack: 作为零样本智能体的潜力与局限性 arXiv [论文] [代码]

制作与探索类游戏

我的世界

[2023/02] 描述、解释、计划和选择：通过大语言模型的交互式规划实现开放世界多任务智能体 NeurIPS 2023 [论文][代码]
[2023/03] Plan4MC: 面向开放世界我的世界任务的技能强化学习与规划 FMDM@NeurIPS2023 [论文][代码]
[2023/05] 我的世界中的幽灵：通过大语言模型、基于文本的知识和记忆实现开放世界环境中的通用能力智能体 arXiv [论文]
[2023/05] VOYAGER: 基于大语言模型的开放式具身智能体 FMDM@NeurIPS2023 [论文][代码]
[2023/10] LLaMA Rider: 激励大语言模型探索开放世界 arXiv [论文][代码]
[2023/10] Steve-Eye: 为基于大语言模型的具身智能体在开放世界中装备视觉感知能力 ICLR 2024 [论文]
[2023/11] JARVIS-1: 基于记忆增强多模态语言模型的开放世界多任务智能体 arXiv [论文][代码]
[2023/11] 看见并思考：虚拟环境中的具身智能体 arXiv [论文][代码]
[2023/12] MP5: 通过主动感知实现我的世界中的多模态开放式具身系统 CVPR 2024 [论文][代码]
[2023/12] Auto MC-Reward: 使用大语言模型为我的世界自动设计密集奖励 arXiv [论文]
[2023/12] 创造性智能体：通过想象力赋能智能体完成创造性任务 arXiv [论文][代码]
[2024/02] RL-GPT: 整合强化学习和代码即策略方法 arXiv [论文]
[2024/03] MineDreamer: 通过想象链学习遵循指令以控制模拟世界 arXiv [论文][代码]
[2024/07] Odyssey: 赋予智能体开放世界技能 arXiv [论文][代码]

Crafter

[2023/02] 使用大型语言模型指导强化学习中的预训练 ICML 2023 [论文]
[2023/05] SPRING：研究论文并推理以玩游戏 NeurIPS 2023 [论文]
[2023/06] OMNI：通过人类有趣性概念模型实现开放性 arXiv [论文][代码]
[2023/09] AdaRefiner：通过自适应反馈优化语言模型的决策 arXiv [论文]
[2024/03] EnvGen：通过大型语言模型生成和调整环境以训练具身智能体 arXiv [论文]
[2024/04] AgentKit：使用图而非编码进行流程工程 arXiv [论文][代码]
[2024/04] 带有大型语言模型提示的世界模型用于目标实现 arXiv [论文]
[2024/07] 通过世界动态建模增强智能体学习 arXiv [论文]

模拟游戏

人类/社会模拟

[2023/04] 生成式智能体：人类行为的交互式模拟 UIST 2023 [论文][代码]
[2023/08] AgentSims：用于大型语言模型评估的开源沙盒 arXiv [论文]
[2023/10] 人形智能体：模拟类人生成式智能体的平台 arXiv [论文]
[2023/10] Lyfe Agents：用于低成本实时社交互动的生成式智能体 arXiv [论文]
[2023/10] SOTOPIA：语言智能体社交智能的交互式评估 arXiv [论文][代码]
[2024/03] SOTOPIA-$\pi$：具有社交智能的语言智能体的交互式学习 arXiv [论文][代码]

具身模拟

[2022/01] 语言模型作为零样本规划器：为具身智能体提取可行动知识 ICML 2022 [论文][代码]
[2022/12] LLM-Planner：使用大型语言模型进行具身智能体的少样本基础规划 ICCV 2023 [论文]
[2023/05] 语言模型遇见世界模型：具身经验增强语言模型 NeurIPS 2023 [论文][代码]
[2023/10] 章鱼：从环境反馈中学习的具身视觉语言程序员 arXiv [论文] [代码]
[2024/01] 实践出真知：通过强化学习将大型语言模型与具身环境对齐 arXiv[论文][代码]

其他模拟

[2024/01] CivRealm：文明游戏中决策智能体的学习与推理之旅 ICLR 2024 [论文][代码]

竞争游戏

[2022/10] 涌现的世界表征：探索在合成任务上训练的序列模型 ICLR 2023 [论文]
[2023/06] ChessGPT：连接策略学习和语言建模 NeurIPS 2023 [论文][代码]
[2023/08] ChatGPT和GPT-4是否擅长打扑克？——翻牌前分析 arXiv [论文]
[2023/09] Suspicion-Agent：利用具有心智理论意识的GPT-4玩不完全信息游戏 arXiv [论文]
[2023/12] 大型语言模型玩星际争霸II：基准测试和链式总结方法 arXiv [论文][代码]
[2024/01] PokerGPT：通过大型语言模型实现多人德州扑克的端到端轻量级求解器 arXiv [论文]
[2024/01] SwarmBrain：通过大型语言模型实现星际争霸II实时策略游戏的具身代理 arXiv [论文]
[2024/02] PokéLLMon：使用大型语言模型的达到人类水平的宝可梦对战代理 arXiv [论文][代码]
[2024/02] Agent-Pro：通过策略级反思和优化学习进化 arXiv [论文][代码]
[2024/03] 具身LLM代理学习在有组织的团队中合作 arXiv [论文]

合作游戏

[2023/07] 使用大型语言模型模块化构建合作的具身代理 ICLR 2024 [论文][代码]
[2023/09] MindAgent：涌现的游戏交互 arXiv [论文]
[2023/10] 评估大型语言模型中的多代理协调能力 arXiv [论文]
[2023/12] 基于LLM的分层语言代理，用于实时人机协调 arXiv [论文]
[2024/02] S-Agents：开放式环境中的自组织代理 arXiv [论文]
[2024/03] ProAgent：使用大型语言模型构建主动合作代理 AAAI 2024 [论文]
[2024/03] LLM增强的自主代理能否合作？通过Melting Pot评估其合作能力 arXiv [论文]
[2024/03] 开放式多代理导航的分层自组织系统 arXiv[论文]
[2024/05] 面向具身多代理协作的高效LLM基础 arXiv[论文][代码]

通信（会话）游戏

[2022/12] 在外交游戏中通过结合语言模型和战略推理实现人类级别的表现 Science [论文]
[2023/08] GameEval：在对话游戏中评估大型语言模型 arXiv [论文][代码]
[2023/09] 探索大型语言模型在通信游戏中的应用：以狼人游戏为例的实证研究 arXiv [论文]
[2023/10] 使用强化学习的语言智能体在狼人游戏中进行战略博弈 arXiv [论文]
[2023/10] 阿瓦隆的思维游戏：通过递归思考对抗欺骗 arXiv [论文]
[2023/10] AvalonBench：评估大型语言模型在阿瓦隆游戏中的表现 FMDM@NeurIPS2023 [论文][代码]
[2023/10] 基于大型语言模型的智能体社会调查：阿瓦隆游戏中的合作与对抗 arXiv [论文]
[2023/10] 利用猜词游戏评估大型语言模型的智能 arXiv [论文][代码]
[2023/11] 战争与和平（WarAgent）：基于大型语言模型的多智能体世界大战模拟 arXiv [论文][代码]
[2023/12] 即时合作：探索语言智能体在阿瓦隆游戏中的临时团队合作 arXiv [论文]
[2023/12] 解密数字侦探：理解大型语言模型在多智能体推理游戏中的行为和能力 [论文]
[2024/02] 提升大型语言模型在狼人游戏中的推理能力 arXiv [论文]
[2024/02] 如果大型语言模型有不同的世界观会怎样：用基于大型语言模型的智能体模拟外星文明 arXiv [论文]
[2024/04] 自我对抗性语言游戏提升大型语言模型的推理能力 [论文][代码]
[2024/06] PLAYER：在谋杀推理游戏中增强基于大型语言模型的多智能体通信和交互 arXiv[论文]

动作游戏

[2023/02] 通过在线强化学习将大型语言模型接地到交互环境中 ICML 2023 [论文][代码]
[2024/03] Cradle：赋能基础智能体实现通用计算机控制 arXiv [论文][代码]
[2024/03] GPT-4能运行DOOM吗？ arXiv [论文][代码]
[2024/03] 使用街头霸王III实时评估大型语言模型 GitHub [代码]
[2024/07] Baba是AI：打破规则以超越基准 ICML 2024 [论文]

引用

如果您觉得本仓库有用，请引用我们的论文：

@misc{hu2024survey,
      标题={基于大型语言模型的游戏智能体综述}, 
      作者={Sihao Hu 和 Tiansheng Huang 和 Fatih Ilhan 和 Selim Tekin 和 Gaowen Liu 和 Ramana Kompella 和 Ling Liu},
      年份={2024},
      电子预印本={2404.02039},
      预印本库={arXiv},
      主分类={cs.AI}
}