Virchow2

Virchow2项目介绍

项目概述

Virchow2是一个由Paige和微软研究院联合开发的自监督视觉Transformer模型。该模型经过了310万张全切片组织病理学图像的预训练，可以作为图块级特征提取器使用，在各种计算病理学下游任务中实现了最先进的性能。

模型架构

Virchow2采用了ViT-H/14的架构，具有以下特点：

参数量：6.32亿
输入图像尺寸：224 x 224
图像块大小：14 x 14
网络层数：32
嵌入维度：1280
激活函数：SwiGLU
注意力头数：16
使用LayerScale
包含4个寄存器令牌

训练细节

使用混合精度训练（fp16）
基于DINOv2的改进目标函数：
- 用核密度估计器替代KoLeo正则化器
- 用扩展上下文平移替代裁剪-调整大小增强

预训练数据集

预训练数据集包含来自Memorial Sloan Kettering Cancer Center的310万张全切片图像，以2.0、1.0、0.5和0.25微米/像素分辨率（对应5x、10x、20x和40x放大倍数）采样图块。

使用方法

Virchow2可以作为冻结特征提取器使用，为图块级和全切片级分类器提供基础。用户需要先在Hugging Face上登录并获得访问权限，然后可以通过PyTorch和timm库加载模型。模型输出可以用于获取图像嵌入表示。

下游应用

除了直接使用外，Virchow2还可以针对特定任务或数据集进行微调，以适应不同的应用场景。

使用条件

Virchow2模型采用CC-BY-NC-ND 4.0许可证发布，仅允许用于非商业性学术研究目的，并需要适当引用。商业用途、销售或其他变现行为都是禁止的，需要事先获得批准。使用该模型时，用户需要同意一系列条款，包括不将其用于诊断、治疗疾病，不重新识别用于开发模型的去识别数据，不违反法律或他人权利等。