热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#测试结果
AgentBench - 全面评估大型语言模型在多环境下的自主代理能力
Github
开源项目
评估框架
AgentBench
LLM-as-Agent
测试结果
任务设置
AgentBench是首个评估大型语言模型(LLM)作为自主代理的基准,涵盖操作系统、数据库、知识图谱等8个不同环境。该项目通过多任务设置和完整的数据集,深入分析LLM的实际应用能力。新版AgentBench v0.2优化了框架结构,并增加了更多模型的测试结果,方便开发者扩展和使用。
1
1
相关文章
AgentBench: 评估大语言模型作为智能体的全面基准测试
3 个月前
AgentBench入门学习资料汇总 - 首个系统评估LLM作为Agent的基准测试
2 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号