Can AI Code 项目介绍
Can AI Code 是一个创新性项目,旨在评估AI模型的编程能力。它通过人类编写的面试问题对人工智能模型进行测试,并为支持通用API提供商和CUDA加强的量化执行环境提供推理脚本。项目同时设有一个基于Docker的沙箱环境,用于验证未经信任的Python和NodeJS代码。
关键理念
- 人类编写题目,AI答题:问题由人编写,AI进行测试。
- 推理脚本:支持所有常见API提供商和CUDA的量化运行。
- 沙箱环境:基于Docker验证未经信任的代码。
- 提示技术与采样参数的评估:研究这些因素对LLM(大语言模型)编程性能的影响。
- 量化对LLM性能的影响评估:研究量化过程导致的编程性能下降。
最新动态
- 10月26日:评估Qwen2.5和Qwen-Coder2.5。
- 10月26日:更新OpenAI、Mistral和Anthropic模型的评估。
- 10月25日:评估ibm-granite/granite-3.0系列。
- 9月12日:修复评估器的序列化错误。
- 9月11日:评估Yi-Coder模型,尤其是Yi-Coder-9B-Chat表现突出。
测试套件
- junior-v2:一个多语言的测试套件(支持Python和JavaScript),用于评估小型LLM的编程性能。
- humaneval:仅支持Python,共164个测试,由OpenAI创建。项目提供模板脚本用于准备和执行此测试。
结果数据及探索
项目包含所有模型答案和评估结果。通过安装streamlit的最新版本,用户可以运行本地web应用,进行结果探索。
仓库结构
仓库结构详尽,包括提供面试问题与模板、采样参数及各种评估和对比工具。
面试者:API与CUDA
项目支持多种API与CUDA本地量化运行时,涵盖不同量化类型并对接对应的依赖,确保广泛的系统兼容性。
问题格式与评估
问题以.yaml文件形式存在,每个问题包含详细字段用于面试和评估。评估过程基于这些字段的描述和期望输出进行。
未来计划
未开发完的特性如高级程序员测试套件的开发,以及对新模型请求的开放都是未来的工作计划。
Can AI Code项目力图通过一系列努力来理解和提高AI的编程能力,从而使AI成为人类编程助手的有效工具。