Project Icon

EvalAI

专为机器学习与人工智能算法评估和比较设计的平台

EvalAI是一个开源平台,用于评估和比较机器学习及AI算法,提供中心化排行榜和提交界面,支持自定义评估协议和多语言环境,可适应高需求的计算挑战,助力研究者复现研究结果,进行准确可靠的分析。

EvalAI 项目介绍

EvalAI 是一个开源平台,用于大规模评估和比较机器学习(ML)和人工智能(AI)算法。

背景与动机

近年来,比较不同算法以解决特定任务变得越来越困难。研究人员在比较算法时往往会遇到实现细节的微小差异、使用非标准的数据集分割和不同的评估指标等问题。EvalAI 通过提供一个中央排行榜和提交接口,使研究人员能够更轻松地复现论文中的结果,并执行可靠且准确的量化分析。同时,通过基于 map-reduce 框架的快速和稳健的后端,EvalAI 旨在加速评估过程,使研究人员更容易复现技术论文中的结果,并进行可靠和准确的分析。

功能特性

  • 自定义评估协议和阶段:允许创建任意数量的评估阶段和数据集分割,支持任何编程语言的兼容性,并可以在公共和私有排行榜中组织结果。

  • 远程评估:一些大规模挑战需要特殊的计算能力进行评估。挑战如果需要额外的计算能力,组织者可以轻松地添加自己的工作节点集群来处理参与者提交的内容,我们负责主持挑战,处理用户提交和维护排行榜。

  • 环境内部评估:EvalAI 允许参与者以 Docker 镜像的形式提交其代理的代码,这些代码会在评估服务器的测试环境中进行评估。在评估过程中,工作节点会获取镜像、测试环境和模型快照,启动一个新容器来执行评估。

  • 命令行支持:EvalAI 提供了一个命令行工具 evalai-cli,扩展了 EvalAI 网页应用的功能,使平台更加易于访问并适合终端环境。

  • 可移植性:EvalAI 在设计上非常注重系统的可扩展性和可移植性,主要依赖于开源技术,如 Docker、Django、Node.js 和 PostgreSQL。

  • 更快的评估:通过在启动时预热工作节点,导入挑战代码并将数据集预加载到内存中,同时将数据集拆分成可以在多个核心上同时评估的小块,从而实现更快的评估,这些简单的技巧在某些情况下将评估时间缩短了一个数量级。

项目目标

EvalAI 的最终目标是建设一个集中平台,用于在全球范围内组织、参与和协作 AI 挑战,并希望能够帮助推动 AI 进步的基准化。

本地安装指南

在本地机器上设置 EvalAI 非常简单。可以使用 Docker 快速设置 EvalAI。以下是步骤:

  1. 在你的机器上安装 dockerdocker-compose

  2. 通过 git 将源码下载到本地。

    git clone https://github.com/Cloud-CV/EvalAI.git evalai && cd evalai
    
  3. 构建并运行 Docker 容器,这可能需要一些时间。

    docker-compose up --build
    
  4. 完成后,在浏览器中打开 URL http://127.0.0.1:8888。默认会创建三个用户:

    • 超级用户(SUPERUSER):用户名 admin,密码 password
    • 主办用户(HOST USER):用户名 host,密码 password
    • 参与者用户(PARTICIPANT USER):用户名 participant,密码 password

如果在安装过程中遇到任何问题,请参阅我们的常见安装错误解决页面

引用 EvalAI

如果您正在使用 EvalAI 主办挑战,请引用以下技术报告:

@article{EvalAI,
    title   =  {EvalAI: Towards Better Evaluation Systems for AI Agents},
    author  =  {Deshraj Yadav and Rishabh Jain and Harsh Agrawal and Prithvijit
                Chattopadhyay and Taranjeet Singh and Akash Jain and Shiv Baran
                Singh and Stefan Lee and Dhruv Batra},
    year    =  {2019},
    volume  =  arXiv:1902.03570
}

贡献者

EvalAI 目前由 Rishabh JainGunjan Chhablani 维护。主要贡献者还包括:Deshraj YadavRam RamrakhyaAkash JainTaranjeet SinghShiv Baran SinghHarsh AgarwalPrithvijit ChattopadhyayDevi ParikhDhruv Batra

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号