语言模型的整体评估
欢迎!crfm-helm
Python包包含了斯坦福CRFM开展的语言模型整体评估项目(论文,网站)中使用的代码。该包具有以下特点:
- 以标准格式收集数据集(如NaturalQuestions)
- 通过统一API访问的模型集合(如GPT-3、MT-NLG、OPT、BLOOM)
- 超越准确率的多种评估指标(效率、偏见、毒性等)
- 用于评估稳健性和公平性的扰动集合(如错别字、方言)
- 用于从数据集构建提示的模块化框架
- 用于管理账户并提供统一接口访问模型的代理服务器
要开始使用,请参考Read the Docs上的文档了解如何安装和运行该软件包。
文本到图像模型的整体评估
近期在开发文本到图像生成模型方面取得了显著进展,这些模型以文本提示作为输入并生成图像。随着这些模型在实际应用中的广泛使用,迫切需要全面了解它们的能力和风险。然而,现有的评估主要集中在图像-文本对齐和图像质量上。为解决这一局限性,我们引入了一个新的基准测试,即文本到图像模型的整体评估(HEIM)。
我们确定了12个在实际模型部署中重要的不同方面,包括:
- 图像-文本对齐
- 图像质量
- 美学
- 原创性
- 推理能力
- 知识
- 偏见
- 毒性
- 公平性
- 稳健性
- 多语言能力
- 效率
通过策划涵盖这些方面的场景,我们使用这个基准测试评估了最先进的文本到图像模型。与之前仅关注对齐和质量的评估不同,HEIM通过在所有方面评估所有模型,显著提高了覆盖面。我们的结果揭示,没有一个模型在所有方面都表现出色,不同模型在不同方面表现出优势。