#计算机视觉

vitmatte-small-composition-1k - Vision Transformer驱动的先进图像抠图模型
模型图像抠图计算机视觉Github深度学习视觉transformerViTMatte开源项目Huggingface
ViTMatte-small-composition-1k模型采用Vision Transformer技术,为图像抠图任务带来突破性进展。其简洁有效的结构设计,结合Composition-1k数据集的训练,实现了高精度的前景对象分割。该开源项目不仅为研究人员提供了直接可用的工具,还通过Hugging Face平台支持进一步的模型优化,推动了计算机视觉技术的发展。
Depth-Anything-V2-Base-hf - 高效精细的单目深度估计模型 提供稳健性能
图像处理计算机视觉深度估计Huggingface模型Depth Anything V2Github开源项目神经网络模型
Depth-Anything-V2-Base-hf是一个基于transformers库的单目深度估计模型。该模型通过大规模合成和真实图像训练,相比V1版本提供更细致的细节和更强的稳健性。它比基于SD的模型效率高10倍且更轻量化,在预训练基础上展现出色的微调性能。模型采用DPT架构和DINOv2骨干网络,适用于零样本深度估计等任务,在相对和绝对深度估计方面表现优异。
segformer-b3-fashion - 高效精准的时尚服饰语义分割模型
计算机视觉Huggingface模型深度学习Github开源项目SegFormer图像分割服装识别
SegFormer-b3-fashion是一个基于SegFormer架构的语义分割模型,针对时尚服饰领域进行了优化。该模型可识别和分割图像中46种不同的服饰元素,涵盖衣物、配饰和细节特征。它采用transformer技术,在保持精确度的同时提供高效设计,适用于时尚分析和虚拟试衣等应用场景。
metaclip-b32-400m - 揭秘CLIP数据处理方法的高性能视觉语言模型
模型Github开源项目Huggingface零样本图像分类自然语言处理MetaCLIP计算机视觉图像文本匹配
MetaCLIP-b32-400m是基于CommonCrawl数据集训练的视觉语言模型,旨在解析CLIP的数据准备方法。该模型构建了图像和文本的共享嵌入空间,支持零样本图像分类和基于文本的图像检索等功能。研究人员可通过此模型探究CLIP的数据处理流程,加深对视觉语言模型训练过程的理解。
upernet-convnext-small - 高效语义分割框架融合ConvNeXt技术
模型语义分割计算机视觉GithubConvNeXtUperNet图像分割Huggingface开源项目
UperNet是一种结合ConvNeXt骨干网络的语义分割框架,融合了特征金字塔网络(FPN)和金字塔池化模块(PPM)。它能为每个像素生成语义标签,适用于场景理解和图像分割等计算机视觉任务。该模型提供多种预训练版本,可根据具体需求应用于不同场景。UperNet的设计旨在提高语义分割的准确性和效率,为研究人员和开发者提供了强大的图像分析工具。
MambaVision-S-1K - MambaVision融合Mamba与Transformer的计算机视觉新型架构
模型Github开源项目Huggingface图像分类特征提取深度学习模型计算机视觉MambaVision
MambaVision-S-1K是一种新型计算机视觉模型,首次融合了Mamba和Transformer的设计理念。研究者通过改进Mamba结构增强了其视觉特征建模能力,并验证了与Vision Transformer的有效集成。在ImageNet-1K基准测试中,该模型在准确率和效率方面取得了平衡。MambaVision可用于图像分类和特征提取任务,提供了简洁的调用接口。这一创新架构为计算机视觉领域带来了新的研究思路和应用前景。
Depth-Anything-V2-Small - 先进高效的开源深度估计工具
模型GithubDepth-Anything-V2开源项目Huggingface机器学习图像处理计算机视觉深度估计
Depth-Anything-V2-Small是一个开源的单目深度估计模型,基于大规模合成和真实图像数据训练。相比前代产品,该模型提供更精细的深度细节和更强的鲁棒性。它比同类基于稳定扩散的模型运行速度快10倍,且更加轻量化。模型支持高效的图像深度推断,可用于各种计算机视觉应用场景。
xclip-base-patch32 - X-CLIP视频语言理解模型在Kinetics-400数据集上的应用
模型计算机视觉Github开源项目HuggingfaceX-CLIP深度学习自然语言处理视频分类
xclip-base-patch32是一个基于CLIP架构的视频语言理解模型,通过Kinetics-400数据集进行全监督训练。该模型支持零样本、少样本及全监督视频分类,以及视频文本检索等任务。在224x224分辨率和每视频8帧的训练条件下,模型在Kinetics-400测试集上达到80.4%的top-1准确率和95.0%的top-5准确率,展现出优秀的视频分类性能。
siglip-large-patch16-256 - SigLIP模型采用优化损失函数实现图像文本多模态任务
模型多模态模型图像分类计算机视觉GithubSigLIPHuggingface开源项目自然语言处理
SigLIP是CLIP模型的改进版本,使用sigmoid损失函数进行语言-图像预训练。该模型在WebLI数据集上以256x256分辨率预训练,适用于零样本图像分类和图像-文本检索任务。通过优化损失函数,SigLIP实现了更高性能和更大批量规模。模型支持原始使用和pipeline API调用,在多项评估中展现出优于CLIP的表现。SigLIP为图像-文本多模态任务提供了新的解决方案。
stable-video-diffusion-img2vid - AI模型将静态图像转换为动态短视频的创新技术
模型图像到视频生成计算机视觉Stable Video Diffusion人工智能Github深度学习Huggingface开源项目
Stable Video Diffusion Image-to-Video是一种先进的AI模型,可将静态图像转化为短视频。该模型利用潜在扩散技术,生成14帧、576x1024分辨率的视频片段。在视频质量方面表现出色,主要应用于生成模型研究和安全部署等领域。尽管存在视频时长短、可能缺乏动作等限制,但该模型为图像到视频转换技术带来了新的可能性。目前仅限于研究用途,不适用于生成事实性或真实性内容。
surya_rec - surya项目专用的多语言文本识别模型
模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目
surya_rec是一个开源的文本识别模型,基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分,专注于多语言文本的识别和提取。surya_rec采用深度学习技术,旨在高效识别和提取多语言文本内容,支持文档分析和信息提取。模型注重准确性和性能,为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。
resnet-152-text-detector - 基于ResNet-152的高效图像文本检测深度学习模型
文本检测计算机视觉图像分类Huggingface深度学习模型Github开源项目ResNet-152
ResNet-152 Text Detector是一个基于ResNet-152架构的深度学习模型,用于快速判断图像是否包含可读文本。该模型在COCO-Text和LLaVAR数据集上训练,使用约14万张图像,其中50%含文本,50%不含文本。模型采用300x300输入分辨率,使用AdamW优化器,学习率为5e-5,训练3个epochs。通过简单的Python代码,开发者可以轻松集成此模型,实现二元分类的图像文本检测功能。
vivit-b-16x2-kinetics400 - ViViT 扩展Vision Transformer至视频分析领域的创新模型
模型Github视觉变换器开源项目HuggingfaceViViT深度学习计算机视觉视频分类
ViViT是Arnab等人提出的视频视觉Transformer模型,将Vision Transformer的概念扩展到视频领域。这一模型主要应用于视频分类等任务的微调,在视频数据处理方面表现出色。ViViT为视频分析和理解开辟了新途径,为研究人员和开发者提供了进行视频相关任务开发的有力工具。该模型的出现推动了计算机视觉技术在视频领域的发展,为未来的视频智能分析奠定了基础。
swin-tiny-patch4-window7-224 - 层级结构的视觉Transformer模型
模型Github神经网络开源项目Huggingface图像分类机器学习计算机视觉Swin Transformer
Swin Transformer模型通过层级特征图和局部注意力机制实现线性计算复杂度。在ImageNet-1k数据集上以224x224分辨率训练后,可作为图像分类和密集识别任务的骨干网络。采用shifted windows技术平衡效率与性能,适用于图像分类或特定任务微调。
DFN5B-CLIP-ViT-H-14 - 高性能图像-文本对比学习模型
CLIP模型图像分类计算机视觉DFN-5BGithub深度学习Huggingface开源项目
DFN5B-CLIP-ViT-H-14是一个基于CLIP架构的图像-文本对比学习模型,通过DFN技术从430亿图像-文本对中筛选出50亿高质量样本进行训练。模型在39个图像分类基准测试中表现优异,平均准确率达69.8%。支持零样本图像分类和跨模态检索,可与OpenCLIP无缝集成。这一模型为计算机视觉和自然语言处理领域提供了有力支持,适用于多种研究和应用场景。
vit-large-patch16-224-in21k - 基于ImageNet-21k预训练的大型Vision Transformer模型
模型计算机视觉ImageNet-21kGithub图像识别预训练模型Vision TransformerHuggingface开源项目
该模型是在ImageNet-21k数据集(1400万图像,21843类别)上预训练的大型Vision Transformer (ViT)。它采用Transformer架构,将224x224分辨率的图像分割成16x16的patch序列进行处理。模型可提取强大的图像特征,适用于分类等多种下游视觉任务。用户可直接用于图像嵌入或在特定任务上微调。
metaclip-h14-fullcc2.5b - 大规模视觉语言模型基于25亿CommonCrawl数据训练
零样本分类模型计算机视觉MetaCLIP多模态学习GithubHuggingface开源项目自然语言处理
MetaCLIP是一个基于25亿CommonCrawl数据点训练的大规模视觉语言模型。该模型由Xu等人在《Demystifying CLIP Data》论文中提出,旨在解析CLIP的数据准备流程。MetaCLIP支持图像与文本的联合嵌入,可应用于零样本图像分类、文本图像检索等任务。作为一个开源项目,MetaCLIP为研究人员提供了探索大规模视觉语言模型的新方向,有助于推进计算机视觉和自然语言处理领域的发展。
mobilenet_v2_1.0_224 - 轻量级移动设备图像分类神经网络MobileNet V2
ImageNet模型图像分类计算机视觉Github神经网络MobileNet V2Huggingface开源项目
MobileNet V2是一款针对移动设备优化的图像分类神经网络模型,在ImageNet-1k数据集上进行预训练。该模型以低延迟和低功耗著称,适用于资源受限的环境。MobileNet V2支持多种分辨率和深度配置,在模型大小、推理速度和准确性之间实现了良好平衡。除图像分类外,它还可应用于目标检测、特征嵌入和图像分割等计算机视觉任务,为移动端应用提供了versatile的解决方案。
fashion-images-gender-age-vit-large-patch16-224-in21k-v3 - 基于Vision Transformer的时尚图像性别年龄识别模型
计算机视觉图像分类Huggingface模型模型微调时尚图像分析Github开源项目ViT模型
该模型基于Google的ViT-Large-Patch16-224-In21k在时尚图像数据集上微调,专门用于识别时尚图像中的性别和年龄。经过5轮训练后,模型在评估集上实现了99.60%的准确率,验证损失降至0.0223。这一高精度模型可为时尚行业的个性化推荐和营销分析提供数据支持。
CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup - CLIP ConvNeXt-XXLarge模型在零样本图像分类上的卓越性能
CLIP模型零样本图像分类计算机视觉GithubConvNeXt深度学习Huggingface开源项目
CLIP ConvNeXt-XXLarge是基于LAION-2B数据集训练的大规模视觉-语言模型。它在ImageNet零样本分类任务中实现79.4%的准确率,成为首个非ViT架构突破79%的CLIP模型。该模型结合847M参数的ConvNeXt-XXLarge图像塔和ViT-H-14规模的文本塔,在计算效率和性能间达到平衡,为视觉-语言模型研究开辟新方向。
convnext-xlarge-384-22k-1k - 融合现代设计的高性能图像分类卷积神经网络
计算机视觉神经网络图像分类深度学习Huggingface模型ConvNeXTGithub开源项目
ConvNeXT是一种创新的纯卷积神经网络模型,结合了ResNet的现代化设计和Swin Transformer的先进理念。该模型在ImageNet-22k数据集上进行了大规模预训练,并在ImageNet-1k上以384x384分辨率精细调优,展现出卓越的图像分类性能。ConvNeXT不仅适用于各类计算机视觉任务,还凸显了传统卷积网络在当代人工智能领域的持续价值和潜力。
resnet-18 - 深度残差学习实现图像识别突破
模型Github开源项目ResNetHuggingface图像分类ImageNet计算机视觉深度学习
ResNet-18是一种基于深度残差学习的图像分类模型,在ImageNet-1k数据集上训练。通过引入残差连接,该模型突破了深度网络训练的限制,实现了高达1000层的网络结构。ResNet-18在2015年ILSVRC和COCO竞赛中的胜利,标志着计算机视觉领域的重要进展。这个模型适用于多种图像分类任务,并支持快速部署和微调。研究者和开发者可以通过Hugging Face的transformers库轻松使用ResNet-18进行图像识别研究和应用开发。
MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric - 基于3D的高精度图像匹配技术
模型3D视觉MASt3R计算机视觉Github深度学习模型图像匹配Huggingface开源项目
MASt3R是一款开源的图像到3D匹配模型,采用ViT-Large编码器和ViT-Base解码器架构。它结合了CatMLP和DPT技术,能够处理多种分辨率的图像输入。该模型在GitHub上提供了完整的代码和使用说明,适用于需要高精度3D视觉的研究和应用。MASt3R为计算机视觉领域的研究人员和开发者提供了一个强大的工具,有助于推动3D视觉技术的发展。
siglip-base-patch16-256 - 改进CLIP的多模态预训练模型SigLIP
多模态模型SigLIP计算机视觉图像分类Huggingface模型Github开源项目自然语言处理
SigLIP是一个基于CLIP改进的多模态预训练模型。它使用Sigmoid损失函数,在WebLI数据集上以256x256分辨率训练。相比CLIP,SigLIP在小批量和大规模批处理中都表现更好,适用于零样本图像分类和图像-文本检索任务。模型在多个基准测试中超越了CLIP,为图像-文本预训练领域带来了新进展。
donut-base - Donut模型:革新文档理解的图像到文本AI技术
计算机视觉Huggingface模型深度学习Github图像到文本开源项目文档理解Donut
Donut是一种创新的文档理解模型,无需OCR即可直接从图像生成文本。它结合了Swin Transformer视觉编码器和BART文本解码器,高效处理多种文档图像。这个预训练基础模型可针对文档分类、信息提取等任务进行微调,在文档智能处理领域应用广泛。作为开源项目,Donut为AI研究和开发提供了强大的文档处理工具。
Depth-Anything-V2-Large - 单目深度估计新突破:高精度细节与高效性能的完美平衡
模型计算机视觉Github神经网络图像处理深度估计Huggingface开源项目Depth Anything V2
Depth-Anything-V2-Large是一款基于大规模数据训练的单目深度估计模型。该模型通过595K合成标记图像和62M+真实未标记图像的训练,在细节精度和鲁棒性方面超越了前代版本。与基于SD的模型相比,它不仅更加高效和轻量,处理速度提升了10倍,还在预训练基础上展现出优秀的微调能力。这一模型为计算机视觉领域提供了性能卓越的深度估计解决方案。
mgp-str-base - 多粒度预测的场景文本识别开源模型
计算机视觉Huggingface多粒度预测模型光学字符识别MGP-STRGithub场景文字识别开源项目
MGP-STR base-sized model是一个基于ViT和A^3模块的场景文本识别开源模型。它采用多粒度预测方法,包括字符、子词和单词级别,以提高识别精度。该模型在MJSynth和SynthText数据集上训练,适用于复杂场景的OCR任务,并可方便地集成到PyTorch项目中。
mask2former-swin-tiny-coco-instance - Mask2Former模型:统一处理实例、语义和全景图像分割
模型Github图像分割实例分割开源项目HuggingfaceMask2Former计算机视觉深度学习
Mask2Former是一个先进的图像分割模型,基于Swin骨干网络在COCO数据集上训练。它采用统一的方法处理实例、语义和全景分割任务,通过预测掩码和标签来完成分割。该模型引入多尺度可变形注意力Transformer和掩码注意力Transformer解码器,在性能和效率上超越了先前的MaskFormer模型。Mask2Former提供了简单的使用方法和代码示例,方便研究人员和开发者在图像分割领域进行应用和研究。
mask2former-swin-large-ade-semantic - Mask2Former:统一架构实现多类型图像分割
模型Github图像分割语义分割开源项目HuggingfaceTransformerMask2Former计算机视觉
Mask2Former-Swin-Large-ADE-Semantic是一款先进的图像分割模型,基于Swin backbone构建并在ADE20k数据集上训练。该模型采用统一架构处理实例、语义和全景分割任务,通过预测掩码和标签集实现多类型分割。其核心优势在于采用改进的多尺度可变形注意力Transformer和掩码注意力Transformer解码器,在性能和效率方面均优于前代MaskFormer模型。Mask2Former适用于广泛的图像分割场景,能够提供精确的分割结果。
GLaMM-GranD-Pretrained - 基于GranD数据集的区域级理解和分割预训练模型
模型计算机视觉Github深度学习图像分割GLaMM-GranD-Pretrained大规模数据集Huggingface开源项目
GLaMM-GranD-Pretrained是基于GranD数据集预训练的模型,专注于区域级理解和分割掩码生成。GranD数据集包含7.5百万个独特概念和810百万个带分割掩码的区域,通过自动化注释流程生成。该模型为计算机视觉任务提供高级像素分割能力。研究者可通过GitHub或Hugging Face获取模型,并参考相关论文和项目页面深入了解。
evf-sam2 - EVF-SAM优化文本引导的Segment Anything Model性能
模型Github图像分割视觉语言融合开源项目HuggingfaceEVF-SAM计算机视觉深度学习
EVF-SAM项目利用早期视觉语言融合技术,提高了文本引导的Segment Anything Model性能。该开源项目为图像和视频分割任务提供解决方案,支持文本提示输入。用户可在GitHub获取源代码,通过inference.py和inference_video.py文件了解使用方法。目前需从源代码导入模型脚本,尚不支持AutoModel.from_pretrained(...)功能。
SlimSAM-uniform-77 - 高效压缩分割模型实现接近原始SAM性能
模型Github图像分割SlimSAM开源项目Huggingface模型压缩计算机视觉深度学习
SlimSAM是一种创新的SAM压缩方法,通过剪枝-蒸馏框架高效重用预训练模型。该方法采用交替细化策略和无标签剪枝准则,将模型参数减至原始SAM-H的0.9%,计算量减至0.8%,仅使用0.1%的训练数据。与其他压缩方法相比,SlimSAM在使用更少训练数据的情况下实现了优越性能。
Florence-2-large-ft - 统一表示实现多种视觉任务的AI基础模型
图像识别计算机视觉多任务学习Huggingface模型GithubFlorence-2开源项目自然语言处理
Florence-2是一款视觉基础模型,采用提示式方法处理多种视觉和视觉语言任务。该模型基于包含54亿标注的FLD-5B数据集进行多任务学习,可通过简单文本提示执行图像描述、目标检测和分割等任务。Florence-2采用序列到序列架构,在零样本和微调场景中表现优异,展现了较强的竞争力。
dpt-beit-base-384 - 基于BEiT主干的DPT模型实现单目深度估计
图像处理神经网络计算机视觉深度估计Huggingface模型Github开源项目DPT
DPT (Dense Prediction Transformer) 是一个基于BEiT主干的模型,专门用于单目深度估计。该模型在140万张图像上训练,可进行零样本深度估计。采用Transformer架构,具备强大的密集预测能力,能生成高质量深度图。模型可通过Python代码或pipeline API轻松使用,为计算机视觉任务提供了有力工具。
ProteusV0.2 - 基于OpenDalleV1.1的高级AI图像生成模型
ProteusV0.2图像生成计算机视觉Huggingface模型深度学习GithubAI绘图开源项目
ProteusV0.2是基于OpenDalleV1.1的进阶AI图像生成模型。通过22万张GPTV标注图像微调和1万对高质量AI图像DPO优化,该模型大幅提升了提示词理解和创作能力。ProteusV0.2在复杂面部特征、皮肤纹理以及超现实、动漫、卡通等风格领域均表现卓越,为AI图像生成技术带来新的突破。
DFN2B-CLIP-ViT-L-14 - 基于CLIP架构的大规模数据集训练图像识别模型
计算机视觉图像分类Huggingface模型机器学习Github开源项目CLIP数据过滤网络
DFN2B-CLIP-ViT-L-14是一个基于CLIP架构的图像识别模型,采用数据过滤网络从128亿图像-文本对中筛选20亿高质量样本进行训练。该模型在多个基准测试中平均准确率达66.86%,可用于零样本图像分类等任务。模型提供OpenCLIP接口,便于开发者使用。DFN2B-CLIP-ViT-L-14体现了大规模数据集和先进算法在计算机视觉领域的应用,为图像理解提供有力支持。