#BEiT
beit-base-patch16-224-pt22k-ft22k - BEiT 基于Transformer的自监督图像分类模型
模型BEiT开源项目自监督学习图像分类HuggingfaceImageNet视觉转换器Github
BEiT是一种基于Transformer的图像分类模型,在ImageNet-22k数据集上进行自监督预训练和微调。它采用掩码预测目标和相对位置编码,有效学习图像表示。该模型在多个图像分类基准测试中表现出色,为计算机视觉任务提供了强大的基础。
beit_base_patch16_224.in22k_ft_in22k_in1k - BEiT模型:基于ImageNet数据集的高效图像分类与特征提取
ImageNet模型图像分类Githubtimm预训练模型BEiTHuggingface开源项目
beit_base_patch16_224.in22k_ft_in22k_in1k是一个强大的图像分类模型,基于BEiT架构设计。该模型在ImageNet-22k数据集上进行自监督掩码图像建模预训练,并在ImageNet-22k和ImageNet-1k上微调,具有8650万个参数。它支持224x224像素的输入图像,可用于图像分类和特征提取,为计算机视觉任务提供高效解决方案。
beit-base-patch16-224 - 基于BERT架构的图像分类模型BEiT在视觉特征学习的应用
BEiTImageNetGithub开源项目图像分类图像预处理Huggingface机器学习模型
BEiT是一个Vision Transformer架构的图像分类模型,通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像,结合16x16像素块嵌入和视觉token预测机制,实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码,并通过patch特征平均池化完成分类任务。
dpt-beit-large-512 - BEiT架构驱动的高性能单目深度估计模型
BEiTGithub开源项目计算机视觉DPTHuggingface单目深度估计MiDaS模型
dpt-beit-large-512是一款基于BEiT架构的单目深度估计模型,采用512x512高分辨率在140万张图像上训练。模型能从单一图像推断详细深度信息,在多项基准测试中表现卓越。作为MiDaS v3.1系列中的佼佼者,该模型在3D重建、自动驾驶等计算机视觉任务中展现出强大的深度估计能力。
beit_base_patch16_384.in22k_ft_in22k_in1k - 高效的BEiT自监督图像分类与嵌入模型
图像分类自监督学习BEiTHuggingface视觉TransformerImageNetGithub开源项目模型
BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练,并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入,具有86.7百万参数,支持384x384图像。模型适合通过timm库高效调用,适用于多种计算机视觉应用。