#基准套件

AgentGym: 多环境大语言模型智能体进化框架 - 助力构建通用人工智能

2 个月前

AgentGym 高质量轨迹集基准套件自我进化方法人工智能 Github 开源项目

2 个月前

VBench: 全面评估视频生成模型的基准测试套件

3 个月前

VBench 视频生成模型评价基准套件 Python包 Github 开源项目

3 个月前

AgentGym: 跨多样化环境进化基于大型语言模型的智能体

3 个月前

AgentGym 高质量轨迹集基准套件自我进化方法人工智能 Github 开源项目

3 个月前

相关项目

AgentGym

AgentGym是一个框架，通过多种交互环境和统一任务格式，协助科研人员评估和开发具备广泛能力的语言模型智能体。平台支持实时反馈和并发操作，包含14种环境，如网页导航、文字游戏和家务任务。核心组成包括高质量的轨迹集AgentTraj和基准测试套件AgentEval，并提出了智能体自我进化方法AgentEvol。实验结果显示，进化后的智能体可与当前最先进的模型媲美。

VBench

VBench项目提供一个全面的基准测试套件，专用于评估视频生成模型的多维质量。通过分层的评估维度，VBench可以细化并客观地评估视频生成质量的多个方面。套件包含详细的提示和评估方法，并提供人类偏好注释，确保结果与人类感知一致。用户可以选择对自定义视频或标准提示进行评估，以确保模型间的公平对比。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com