热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#HumanEval+
EvalPlus:为代码生成大语言模型打造的严格评估框架
2 个月前
EvalPlus是一个专为评估代码生成大语言模型而设计的严格评估框架,通过扩展HumanEval和MBPP测试集,提供了更全面、更严格的评估标准,旨在推动LLM4Code研究的发展。
EvalPlus
LLM评估
代码生成
HumanEval+
MBPP+
Github
开源项目
2 个月前
相关项目
evalplus
EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号