UNI项目介绍
UNI是一个为组织病理学开发的最大的预训练视觉编码器,它基于1亿张图像和10万张全幻灯片(WSI)进行训练。该项目由哈佛大学/布里格姆妇女医院的Mahmood实验室AI病理学团队开发。UNI在34个临床任务中展现了最先进的性能,特别是在罕见和代表性不足的癌症类型方面表现出色。
项目背景与意义
UNI的独特之处在于它没有使用开放数据集和大型公共组织学幻灯片集合(如TCGA、CPTAC、PAIP、CAMELYON、PANDA等)进行预训练。这些数据集通常用于计算病理学中的基准开发。UNI的这一特点使研究人员能够在构建和评估病理AI模型时,避免公共基准或私人组织病理学幻灯片集合的数据污染风险。
模型描述
UNI是一个预训练的视觉主干网络,基于ViT-L/16架构(通过DINOv2),用于组织病理学图像的多用途评估。该模型的主要特点包括:
- 模型类型:预训练视觉主干网络(ViT-L/16,通过DINOv2)
- 预训练数据集:Mass-100K,源自私人组织学收藏(BWH / MGH),以及来自公共GTEx联盟的幻灯片
- 许可证:CC-BY-NC-ND-4.0
使用方法
UNI可以通过两种主要方式使用:
-
特征提取:使用预训练的UNI编码器从组织病理学ROI中提取特征。
-
下游任务:
- ROI分类:使用逻辑回归、k最近邻(k-NN)或最近质心分类器。
- ROI检索:使用最近邻分类器。
- 幻灯片分类:使用多实例学习(MIL)分类器。
- 微调:推荐用于分割任务,可使用专门的框架如ViTDet或ViT-Adapter。
训练细节
- 训练数据:Mass-100K数据集,包含约1亿张来自100,402张H&E WSI的组织学图像。
- 训练目标:使用DINOv2自监督学习配方,包括DINO自蒸馏损失、iBOT掩码图像建模损失和KoLeo正则化。
- 模型架构:ViT-Large(3亿参数),补丁大小16,嵌入维度1024,16个头,MLP FFN。
- 硬件:4x8 Nvidia A100 80GB GPU。
- 训练时长:约1024 GPU小时。
许可和使用条款
UNI模型及相关代码根据CC-BY-NC-ND 4.0许可发布,仅可用于非商业性学术研究目的,并需要适当归属。禁止任何商业使用、销售或其他货币化行为。使用模型需要在Hugging Face上注册并同意使用条款。用户同意不分发、发布或复制模型副本。
结语
UNI项目为组织病理学研究提供了一个强大的预训练视觉编码器,有望推动该领域的进一步发展。研究人员可以利用UNI进行各种下游任务,如ROI分类、幻灯片分类和分割等。然而,使用者需要严格遵守许可和使用条款,确保模型仅用于非商业性学术研究目的。