#图像特征提取
vit_giant_patch14_dinov2.lvd142m - 基于Vision Transformer的无监督视觉特征提取模型
自监督学习图像分类DINOv2Huggingface开源项目模型GithubVision Transformer图像特征提取
该项目介绍了使用DINOv2方法的Vision Transformer(ViT)模型,通过无监督学习在LVD-142M数据集上进行预训练。这一模型适用于图像分类和嵌入,帮助提取稳健的视觉特征以及实现高效的图像识别。ViT模型的参数量为1136.5M和1784.2 GMACs,显现出其出色的性能和灵活性。用户可以在GitHub查看和下载该模型的代码和更多资源。
vit_base_patch14_dinov2.lvd142m - Vision Transformer自监督图像特征提取模型
图像特征提取模型自监督学习GithubtimmDINOv2Vision TransformerHuggingface开源项目
vit_base_patch14_dinov2.lvd142m是基于Vision Transformer架构的图像特征提取模型,采用DINOv2自监督方法在LVD-142M数据集上预训练。模型包含8660万参数,支持518x518像素输入,可用于图像分类和特征提取。该模型无需监督即可学习视觉特征,性能出色。研究者可通过timm库便捷使用此预训练模型。
Kolors-IP-Adapter-Plus - 增强图像细节保留与训练数据多样性
Kolors-IP-Adapter-Plus高质量训练数据开源项目模型Huggingface中文提示图像特征提取Github视觉吸引力
Kolors-IP-Adapter-Plus采用Openai-CLIP-336模型提升图像细节保留能力,同时通过大规模高质量的训练数据提升生成效果。其在超过200张测试图像中获得图像专家的高度评价,体现出优良的图像真实度和视觉吸引力,并在多项评估指标中表现优异,适用于需要高精确度和输出多样性的应用场景。
InternViT-6B-448px-V1-5 - 提升视觉模型分辨率及多语言OCR精度
Github开源项目视觉基础模型高分辨率处理InternViT-6B-448px-V1-5图像特征提取HuggingfaceOCR能力模型
InternViT-6B-448px-V1-5在InternViT-6B-448px-V1-2的基础上,通过动态调整训练图像分辨率和强化数据集质量来提高模型的高分辨率处理和OCR能力。该模型具有5540M参数,使用1到12块瓦片进行训练,并通过PaddleOCR进行了中英文OCR处理,增强了多语言OCR性能。建议在构建视觉语言模型时,使用最后一层的特征。
samvit_base_patch16.sa1b - 高效的图像特征提取与分类工具
图像分类图像特征提取samvit_base_patch16.sa1bHuggingfaceGithub开源项目模型预训练Vision Transformer
Segment-Anything Vision Transformer(SAM ViT)模型专注于图像特征提取与分类,不含分割头。使用MAE权重进行初始化,并通过SA-1B数据集的预训练,展示出89.7M的参数量及486.4 GMACs的计算性能,适宜处理1024x1024图像。Python代码示例提供了图像分类与嵌入应用方式,用户可通过timm库使用预训练模型‘samvit_base_patch16.sa1b’以提升图像分析效率。