Human Preference Score v2(HPSv2):评估文本到图像生成模型的可靠基准

Human Preference Score v2:评估文本到图像合成的可靠基准

近年来,文本到图像生成技术取得了巨大的进步。各种先进的模型如DALL-E 2、Stable Diffusion等能够根据文本提示生成高质量的图像。然而,如何准确评估这些生成图像的质量一直是一个挑战。为了解决这个问题,研究人员提出了Human Preference Score v2(HPSv2),这是一个新的基准测试,旨在更可靠地评估文本到图像生成模型的人类偏好。

HPSv2的核心组成

HPSv2主要包括两个核心组成部分:

Human Preference Dataset v2(HPD v2):这是一个大规模的人类标注数据集,包含了798,090个人类偏好选择,涵盖了433,760对图像。这些图像来源广泛,包括多个主流的文本到图像生成模型。
Human Preference Score v2(HPS v2):这是一个在HPD v2上训练的偏好预测模型。它可以用来比较由同一提示生成的不同图像,从而评估模型的生成质量。

HPSv2概览

HPD v2数据集的特点

HPD v2数据集具有以下特点:

规模庞大:包含近80万个人类偏好选择,涵盖43万对图像和10.7万个提示。
来源多样:图像来自多个主流的文本到图像生成模型,如CogView2、DALL·E 2、Stable Diffusion等。
偏见消除:使用ChatGPT对DiffusionDB的提示进行了清理,以去除有偏见的功能词。
高质量标注:由人类标注者对同一提示生成的不同模型图像进行排序。

HPS v2模型的优势

相比现有的评估指标,HPS v2模型具有以下优势:

更高的准确性:在多个测试集上,HPS v2显示出比现有指标更高的准确率。例如,在HPD v2测试集上的准确率达到83.3%。
更好的泛化能力:HPS v2能够在不同的图像分布上表现良好,适用于评估各种文本到图像生成模型。
对模型改进敏感:HPS v2能够反映文本到图像生成模型的算法改进,是一个更可靠的评估指标。

HPSv2基准测试

HPSv2基准测试评估了模型在4种不同风格图像生成上的能力:动画、概念艺术、绘画和照片。以下是部分模型在v2.1基准测试中的表现:

模型	动画	概念艺术	绘画	照片	平均分
SDXL Refiner 0.9	33.26	32.07	31.63	28.38	31.34
SDXL Base 0.9	32.84	31.36	30.86	27.48	30.63
Deliberate	31.46	30.48	30.17	28.83	30.23
Realistic Vision	31.01	29.95	30.00	28.61	29.89
Dreamlike Photoreal 2.0	30.87	29.75	29.46	28.85	29.73

HPSv2的应用

研究人员和开发者可以通过以下方式使用HPSv2:

图像比较:使用HPS v2模型对同一提示生成的多张图像进行评分和比较。
基准测试复现:使用提供的数据和代码复现HPSv2基准测试结果。
自定义评估:使用HPSv2提供的基准提示评估自己的文本到图像生成模型。
偏好模型评估:评估HPS v2模型与人类偏好选择的相关性。

使用HPSv2

要开始使用HPSv2,可以通过以下步骤:

安装:

pip install hpsv2

图像评分:

import hpsv2

result = hpsv2.score(imgs_path, '<prompt>', hps_version='v2.1')

基准测试:

import hpsv2

hpsv2.evaluate_benchmark('<model_name>')

结论

Human Preference Score v2(HPSv2)为评估文本到图像生成模型提供了一个更可靠、更全面的基准。通过大规模的人类标注数据集和精心设计的偏好预测模型,HPSv2能够更准确地反映人类对生成图像的偏好。这不仅有助于我们更好地比较和改进现有的文本到图像生成模型,也为未来的研究提供了宝贵的资源和工具。

随着文本到图像生成技术的不断发展,像HPSv2这样的评估基准将在推动技术进步和确保生成内容质量方面发挥越来越重要的作用。研究人员和开发者可以利用HPSv2来评估和改进他们的模型,最终为用户提供更高质量、更符合人类偏好的图像生成体验。

HPSv2测试数据可视化