T-Eval
T-Eval是一个评估大语言模型工具使用能力的基准测试框架。它将评估过程分解为指令遵循、规划、推理、检索、理解和审查等多个子过程,实现了细粒度分析。该项目提供英文和中文评测数据集、测试脚本和排行榜。T-Eval为研究人员和开发者提供了一个深入分析语言模型工具使用能力的新方法。