#测试结果

AgentBench入门学习资料汇总 - 首个系统评估LLM作为Agent的基准测试

2 个月前

2 个月前

3 个月前

3 个月前

相关项目

AgentBench

AgentBench是首个评估大型语言模型（LLM）作为自主代理的基准，涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集，深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构，并增加了更多模型的测试结果，方便开发者扩展和使用。

投诉举报邮箱: service@vectorlightyear.com