#强化学习

深入探索 gym-anytrading:最简单、灵活且全面的 OpenAI Gym 交易环境

3 个月前
Cover of 深入探索 gym-anytrading:最简单、灵活且全面的 OpenAI Gym 交易环境

BeautifulAlgorithms.jl:Julia中优雅简洁的算法实现

3 个月前
Cover of BeautifulAlgorithms.jl:Julia中优雅简洁的算法实现

PPO x Family: 深度强化学习入门公开课

3 个月前
Cover of PPO x Family: 深度强化学习入门公开课

PARL: 高性能分布式强化学习框架

3 个月前
Cover of PARL: 高性能分布式强化学习框架

《强化学习的数学基础》:深入浅出的数学视角

3 个月前
Cover of 《强化学习的数学基础》:深入浅出的数学视角

OpenSpiel: 一个用于游戏中强化学习研究的开源框架

3 个月前
Cover of OpenSpiel: 一个用于游戏中强化学习研究的开源框架

大型语言模型在交互式环境中的在线强化学习应用

3 个月前
Cover of 大型语言模型在交互式环境中的在线强化学习应用

Tianshou:一个优雅的PyTorch深度强化学习库

3 个月前
Cover of Tianshou:一个优雅的PyTorch深度强化学习库

Humanoid-Gym: 突破性的人形机器人强化学习框架

3 个月前
Cover of Humanoid-Gym: 突破性的人形机器人强化学习框架

panda-gym: 开源的目标条件机器人学习环境

3 个月前
Cover of panda-gym: 开源的目标条件机器人学习环境
相关项目
Project Cover

Starling-LM-7B-beta

Starling-LM-7B-beta是一款基于AI反馈优化并从Openchat-3.5-0106微调的大型语言模型。通过升级后的奖励模型和策略优化,增强了语言生成质量和安全性,并在GPT-4评测中取得了8.12的高分。适用于多种对话场景,用户可在LMSYS Chatbot Arena免费测试,非常适合关注交互体验的开发者和研究人员。

Project Cover

Xwin-LM-7B-V0.2

Xwin-LM项目开发并开源大语言模型对齐技术,涵盖监督微调、奖励模型等多种方法。基于Llama2构建的版本在AlpacaEval评测中表现卓越,超过GPT-4。最新的Xwin-LM-7B-V0.2和13B-V0.2在与GPT-4的比较中分别达到59.83%和70.36%胜率。项目不断更新以提高模型的稳定性和可重复性。

Project Cover

Reinforcement-Learning-Papers

该项目全面收录强化学习领域最新论文,聚焦单智能体强化学习研究。内容涵盖模型无关、基于模型、离线、元学习等多个分支,并收录ICLR、ICML、NeurIPS等顶级会议论文。项目对每篇论文进行简要概括,为研究人员提供强化学习前沿进展参考。

Project Cover

sumo-rl

SUMO-RL是基于SUMO交通模拟器的强化学习框架,专注于智能交通信号控制。该框架提供简洁接口,支持创建单代理和多代理强化学习环境,允许自定义状态和奖励函数,并兼容主流RL库。SUMO-RL简化了交通信号控制的强化学习研究过程,适用于多种交通网络和场景。目前已应用于多项研究,覆盖从单一交叉口到大规模城市网络的各类交通控制问题。

Project Cover

awesome-LLM-game-agent-papers

这个项目是关于大型语言模型(LLM)在游戏智能体研究中应用的论文集。内容涵盖文字冒险、Minecraft、社会模拟等多种游戏类型,展示LLM在游戏规划、决策和交互方面的能力。项目定期更新,为研究人员提供LLM游戏智能体领域的综合资源,助力了解该领域的前沿进展。

Project Cover

q-transformer

Q-transformer项目是Google Deepmind提出的可扩展离线强化学习方法的开源实现。该项目通过自回归Q函数优化多动作选择,支持单一和多动作学习,并提供深度对偶架构和n步Q学习。它包含环境交互、数据集创建和学习流程,适用于复杂机器人控制任务。Q-transformer的创新性和灵活性为强化学习研究和应用提供了重要工具。

Project Cover

gym-mtsim

gym-mtsim是一个整合MetaTrader 5交易模拟器和OpenAI Gym强化学习环境的Python库。它支持多资产交易模拟、回测可视化及强化学习环境构建。该项目提供通用、易用且可读性强的工具,涵盖完整交易流程。适合各层次用户使用,可进行交易策略开发和测试。

Project Cover

ReinforcementLearning.jl

ReinforcementLearning.jl是Julia语言开发的强化学习框架,提供精心设计的组件和接口。研究人员可轻松实现新算法、进行基准测试和算法比较。框架支持从传统表格方法到深度强化学习,注重实验可重复性。其核心设计原则包括可重用性、可扩展性和易用性,适合各类强化学习实验和研究。

Project Cover

reinforcement_learning_course_materials

这个项目提供了全面的强化学习课程资料,包含讲义、练习题及答案和教学视频。内容覆盖从基础到高级的强化学习知识,如马尔可夫决策过程、动态规划、蒙特卡洛方法和时序差分学习等。每个主题配有详细讲解和Python代码实现。所有资料均为开源,适合自学者和教育工作者使用。该资源为强化学习的学习和教学提供了实用全面的材料支持。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号