热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#编程能力
bigcodebench - 高难度代码生成基准测试评估LLM编程能力
BigCodeBench
代码生成
评估基准
大语言模型
编程能力
Github
开源项目
BigCodeBench是一个具有挑战性的代码生成基准测试,用于评估大型语言模型的实际编程能力。它提供复杂指令和多样函数调用,包括数据集、生成和评估脚本。基于EvalPlus框架,BigCodeBench实现精确评估和排名,提供预生成样本以加速研究。支持多种评估环境,采用unittest进行代码测试,为研究人员提供全面工具。
1
1
相关文章
BigCodeBench: 一个评估大型语言模型代码生成能力的基准测试
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号