#基准套件

AgentGym - 多环境下的广泛能力AI智能体进化平台

AgentGym高质量轨迹集基准套件自我进化方法人工智能Github开源项目

AgentGym是一个框架，通过多种交互环境和统一任务格式，协助科研人员评估和开发具备广泛能力的语言模型智能体。平台支持实时反馈和并发操作，包含14种环境，如网页导航、文字游戏和家务任务。核心组成包括高质量的轨迹集AgentTraj和基准测试套件AgentEval，并提出了智能体自我进化方法AgentEvol。实验结果显示，进化后的智能体可与当前最先进的模型媲美。

VBench - 视频生成模型多维度质量评估套件

VBench视频生成模型评价基准套件Python包Github开源项目

VBench项目提供一个全面的基准测试套件，专用于评估视频生成模型的多维质量。通过分层的评估维度，VBench可以细化并客观地评估视频生成质量的多个方面。套件包含详细的提示和评估方法，并提供人类偏好注释，确保结果与人类感知一致。用户可以选择对自定义视频或标准提示进行评估，以确保模型间的公平对比。

相关文章

Article Cover

AgentGym: 跨多样化环境进化基于大型语言模型的智能体

Article Cover

VBench: 全面评估视频生成模型的基准测试套件

Article Cover

AgentGym: 多环境大语言模型智能体进化框架 - 助力构建通用人工智能

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号