#HumanEval+

EvalPlus：为代码生成大语言模型打造的严格评估框架

3 个月前

EvalPlus LLM评估代码生成 HumanEval+MBPP+Github 开源项目

3 个月前

相关项目

evalplus

EvalPlus是一个开源框架,旨在严格评估大语言模型的代码生成能力。它包含HumanEval+和MBPP+两个增强数据集,测试用例数量大幅提升。该框架提供精确评估、代码严谨性检验、LLM生成样本等功能,可显著加速相关研究。EvalPlus支持代码生成、后处理和评估全流程,在GitHub开源并提供Docker镜像,便于研究人员使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com