#BEiT

Microsoft/TrOCR-识别手写文字的利器，让AI在教育领域更进一步

2024年08月03日

TrOCR Transformer RoBERTa BEiT 图像识别热门

2024年08月03日

相关项目

beit-base-patch16-224

BEiT是一个Vision Transformer架构的图像分类模型，通过在ImageNet-21k数据集进行自监督预训练并在ImageNet-1k上微调而来。模型采用BERT风格的预训练方法处理224x224分辨率图像，结合16x16像素块嵌入和视觉token预测机制，实现了图像特征的提取。其特点是使用相对位置编码替代绝对位置编码，并通过patch特征平均池化完成分类任务。

dpt-beit-large-512

dpt-beit-large-512是一款基于BEiT架构的单目深度估计模型,采用512x512高分辨率在140万张图像上训练。模型能从单一图像推断详细深度信息,在多项基准测试中表现卓越。作为MiDaS v3.1系列中的佼佼者,该模型在3D重建、自动驾驶等计算机视觉任务中展现出强大的深度估计能力。

beit_base_patch16_384.in22k_ft_in22k_in1k

BEiT图像分类模型在ImageNet-22k上通过DALL-E dVAE自监督掩码图像建模进行训练，并在ImageNet-22k和ImageNet-1k上进行微调。特点包括易于实现图像分类和生成图像嵌入，具有86.7百万参数，支持384x384图像。模型适合通过timm库高效调用，适用于多种计算机视觉应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com