#编程能力

BigCodeBench: 一个评估大型语言模型代码生成能力的基准测试

3 个月前

BigCodeBench 代码生成评估基准大语言模型编程能力 Github 开源项目

3 个月前

相关项目

bigcodebench

BigCodeBench是一个具有挑战性的代码生成基准测试，用于评估大型语言模型的实际编程能力。它提供复杂指令和多样函数调用，包括数据集、生成和评估脚本。基于EvalPlus框架，BigCodeBench实现精确评估和排名，提供预生成样本以加速研究。支持多种评估环境，采用unittest进行代码测试，为研究人员提供全面工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com