#BEiT
beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用
Github开源项目机器学习模型BEiT图像分类ImageNetHuggingface图像预处理
BEiT是一个Vision Transformer架构的图像分类模型,通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像,结合16x16像素块嵌入和视觉token预测机制,实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码,并通过patch特征平均池化完成分类任务。
dpt-beit-large-512 - BEiT架构驱动的高性能单目深度估计模型
Github开源项目计算机视觉模型BEiTHuggingface单目深度估计DPTMiDaS
dpt-beit-large-512是一款基于BEiT架构的单目深度估计模型,采用512x512高分辨率在140万张图像上训练。模型能从单一图像推断详细深度信息,在多项基准测试中表现卓越。作为MiDaS v3.1系列中的佼佼者,该模型在3D重建、自动驾驶等计算机视觉任务中展现出强大的深度估计能力。
beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型
Github开源项目模型BEiT图像分类ImageNet自监督学习Huggingface视觉Transformer
BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练,并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入,具有86.7百万参数,支持384x384图像。模型适合通过timm库高效调用,适用于多种计算机视觉应用。