#测试结果

AgentBench - 全面评估大型语言模型在多环境下的自主代理能力

Github开源项目评估框架AgentBenchLLM-as-Agent测试结果任务设置

AgentBench是首个评估大型语言模型（LLM）作为自主代理的基准，涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集，深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构，并增加了更多模型的测试结果，方便开发者扩展和使用。

相关文章

Article Cover

AgentBench: 评估大语言模型作为智能体的全面基准测试

Article Cover

AgentBench入门学习资料汇总 - 首个系统评估LLM作为Agent的基准测试

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号