Virchow2项目介绍
项目概述
Virchow2是一个由Paige和微软研究院联合开发的自监督视觉Transformer模型。该模型经过了310万张全切片组织病理学图像的预训练,可以作为图块级特征提取器使用,在各种计算病理学下游任务中实现了最先进的性能。
模型架构
Virchow2采用了ViT-H/14的架构,具有以下特点:
- 参数量:6.32亿
- 输入图像尺寸:224 x 224
- 图像块大小:14 x 14
- 网络层数:32
- 嵌入维度:1280
- 激活函数:SwiGLU
- 注意力头数:16
- 使用LayerScale
- 包含4个寄存器令牌
训练细节
- 使用混合精度训练(fp16)
- 基于DINOv2的改进目标函数:
- 用核密度估计器替代KoLeo正则化器
- 用扩展上下文平移替代裁剪-调整大小增强
预训练数据集
预训练数据集包含来自Memorial Sloan Kettering Cancer Center的310万张全切片图像,以2.0、1.0、0.5和0.25微米/像素分辨率(对应5x、10x、20x和40x放大倍数)采样图块。
使用方法
Virchow2可以作为冻结特征提取器使用,为图块级和全切片级分类器提供基础。用户需要先在Hugging Face上登录并获得访问权限,然后可以通过PyTorch和timm库加载模型。模型输出可以用于获取图像嵌入表示。
下游应用
除了直接使用外,Virchow2还可以针对特定任务或数据集进行微调,以适应不同的应用场景。
使用条件
Virchow2模型采用CC-BY-NC-ND 4.0许可证发布,仅允许用于非商业性学术研究目的,并需要适当引用。商业用途、销售或其他变现行为都是禁止的,需要事先获得批准。使用该模型时,用户需要同意一系列条款,包括不将其用于诊断、治疗疾病,不重新识别用于开发模型的去识别数据,不违反法律或他人权利等。
项目意义
Virchow2为计算病理学领域提供了一个强大的预训练模型,可以显著提高各种下游任务的性能。它的开发为组织病理学图像分析带来了新的可能性,有望推动医学研究和诊断技术的进步。然而,需要注意的是,该模型仅用于研究目的,不能直接用于实际患者的诊断或疾病预测。
研究人员在使用Virchow2时,应该充分理解并遵守使用条款,合理利用这一强大工具来推动学术研究的发展。