共形预测
适用于任何机器学习任务的严格不确定性量化
本代码库是在真实数据上开始使用共形预测(又称共形推理)的最简单方法。
每个notebooks
都将共形预测应用于一个使用最先进机器学习模型的实际预测问题。
无需下载模型或数据即可运行一致性预测
笔记本会自动下载几个大规模真实世界数据集的原始模型输出和每个数据集的少量样本数据。您可以完全在这个沙盒中开发和测试一致性预测方法,无需运行原始模型或下载原始数据。打开笔记本即可查看预期输出。您可以使用这些笔记本来试验现有方法或作为开发自己方法的模板。
示例笔记本
notebooks/imagenet-smallest-sets.ipynb
:使用ResNet152分类器进行Imagenet分类。预测集以90%的概率保证包含真实类别。notebooks/meps-cqr.ipynb
:使用梯度提升回归器和一致性分位数回归进行医疗支出回归。预测区间以90%的概率保证包含真实美元价值。notebooks/multilabel-classification-mscoco.ipynb
:在Microsoft Common Objects in Context (MS-COCO)数据集上进行多标签图像分类。集值预测保证包含90%的真实类别。notebooks/toxic-text-outlier-detection.ipynb
:通过一致性异常检测识别有毒或仇恨的在线评论。不超过10%的分布内数据会被标记为有毒。notebooks/tumor-segmentation.ipynb
:从内窥镜图像中分割肠息肉。分割掩码包含90%的真实肿瘤像素。notebooks/weather-time-series-distribution-shift
:使用时间序列数据和加权一致性预测来预测全球未来温度。预测区间包含90%的真实温度。notebooks/imagenet-selective-classification.ipynb
:当Imagenet分类器不确定时,它会放弃预测。否则,它将有90%的准确率,尽管基础模型的准确率只有77%。- ...以及更多!
笔记本可以使用提供的Google Colab链接立即运行
Colab链接在每个笔记本的顶部单元格中
要在本地运行这些笔记本,您只需安装正确的依赖项并按下运行所有单元格
即可!笔记本将自动下载所有必需的数据和模型输出。您的计算机需要1.5GB的空间来存储自动下载的数据。如果您想了解我们如何生成预先计算的模型输出和数据子样本,请查看generation-scripts
中的文件。每个数据集都有一个对应的脚本。要创建具有正确依赖项的conda
环境,请运行conda env create -f environment.yml
。如果您仍然遇到依赖项错误,请确保在Jupyter笔记本中激活conformal
环境。
引用
这个仓库旨在配合我们的论文一致性预测和无分布不确定性量化的温和介绍。 该论文中有每个示例的详细解释和归属说明。 如果您发现这个仓库有用,除了相关方法和数据集外,请引用:
@article{angelopoulos2021gentle,
title={A gentle introduction to conformal prediction and distribution-free uncertainty quantification},
author={Angelopoulos, Anastasios N and Bates, Stephen},
journal={arXiv preprint arXiv:2107.07511},
year={2021}
}