🦀 CRAB: 跨平台多模态语言模型智能体的嵌入式基准测试
网站 & 演示 | 博客 | 中文博客 | CAMEL-AI
概述
CRAB 是一个以 Python 为中心的框架,用于构建大型语言模型智能体基准测试环境。
主要特点
🌐 跨平台和多环境
- 创建支持各种部署选项的智能体环境,包括内存中、Docker 托管、虚拟机或分布式物理机,只要它们可以通过 Python 函数访问。
- 让智能体通过统一的接口同时访问所有环境。
⚙️ 易用的配置
- 只需在 Python 函数上添加
@action
装饰器即可添加新动作。 - 通过整合多个动作来定义环境。
📐 创新的基准测试套件
- 以直观的 Python 原生方式定义任务和相应的评估器。
- 引入新颖的图形评估方法,提供细粒度的指标。
安装
前提条件
- Python 3.10 或更高版本
pip install crab-framework[client]
CRAB-Benchmark-v0 实验
所有数据集和实验代码都在 crab-benchmark-v0 目录中。在使用我们的基准测试之前,请仔细阅读基准测试教程。
示例
使用 OpenAI 智能体运行模板环境
export OPENAI_API_KEY=<你的 API 密钥>
python examples/single_env.py
python examples/multi_env.py
引用
如果您在工作中使用了任何相关内容,请引用我们的论文:
@misc{xu2024crab,
title={CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents},
author={Tianqi Xu and Linyao Chen and Dai-Jie Wu and Yanjun Chen and Zecheng Zhang and Xiang Yao and Zhiqiang Xie and Yongchao Chen and Shilong Liu and Bochen Qian and Philip Torr and Bernard Ghanem and Guohao Li},
year={2024},
eprint={2407.01511},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.01511},
}