#训练框架

rl-baselines3-zoo - Stable Baselines3 强化学习代理的训练框架,包括超参数优化和预训练代理
RL Baselines3 ZooStable Baselines3强化学习训练框架超参数调整Github开源项目
RL Baselines3 Zoo提供一个灵活的训练框架支持众多增强学习算法和环境。此框架便于进行算法基准测试、调优以及AI模型的训练和评估。已集成200多个预训练智能体,并配备全面的文档和安装指南,适合科研和开发使用。
PantheonRL - 多智能体强化学习训练和测试的模块化框架
PantheonRL多智能体强化学习训练框架自适应训练StableBaselines3Github开源项目
PantheonRL是一个用于多智能体强化学习环境训练和测试的开源框架。它提供模块化和可扩展的功能,支持智能体策略训练、微调、动态配对等。基于StableBaselines3构建,PantheonRL采用去中心化训练方法,为每个智能体配备独立的重放缓冲区和更新算法。此外,它还提供Web用户界面,便于进行轻量级实验和原型设计,支持自我对弈、交叉对弈、循环训练和微调等多种训练模式。
OpenELM-3B-Instruct - 高效语言模型OpenELM助力开放研究
语言模型OpenELMCoreNetHuggingFace训练框架Github开源项目模型Huggingface
OpenELM项目推出了一系列高效的语言模型,通过层级缩放策略提升了准确性。项目提供完整架构,从数据准备到模型评估,并提供270M到3B参数的多个模型版本。预训练数据集涵盖RefinedWeb等,约1.8万亿词块,支持在HuggingFace Hub使用。OpenELM通过创新的参数分配和多样数据集,助力研究人员在自然语言处理领域取得进展。