#计算机视觉

dinov2-small - 小型Vision Transformer模型用于无监督视觉特征学习
计算机视觉DINOv2Huggingface模型Vision TransformerGithub图像特征提取开源项目自监督学习
DINOv2-small是一个基于Vision Transformer架构的小型模型,通过无监督学习方法训练。该模型将图像分割为固定大小的块,并使用Transformer编码器处理,能够提取强大的视觉特征。作为预训练模型,它不包含特定任务的微调头,主要用于特征提取。研究者可以在此基础上添加任务相关的分类层,以适应不同的下游视觉应用。
Depth-Anything-V2-Large-hf - 高效精准的单目深度估计AI模型
模型计算机视觉Github神经网络图像处理深度估计Depth Anything V2Huggingface开源项目
Depth-Anything-V2-Large-hf是一个基于DPT架构和DINOv2骨干网络的单目深度估计模型。通过大规模合成和真实图像训练,该模型在深度估计精度和效率上取得了显著进展。它提供更细腻的深度细节,具有更强的鲁棒性,同时比基于稳定扩散的模型效率提高10倍。作为计算机视觉领域的有力工具,该模型可应用于零样本深度估计等多种任务。
Florence-2-base - 多任务视觉处理的统一基础模型
图像处理计算机视觉多任务学习Huggingface模型人工智能GithubFlorence-2开源项目
Florence-2是一个视觉基础模型,可处理多种视觉和视觉语言任务。该模型通过解释文本提示执行图像描述、物体检测和分割等功能。Florence-2利用FLD-5B数据集进行训练,在零样本和微调场景下均表现优异。它支持图像描述、物体检测、区域描述等多项任务,为视觉应用提供了统一的基础架构。
dpt-hybrid-midas - 基于Vision Transformer的单目深度估计模型
计算机视觉深度估计Huggingface模型DPT-HybridVision TransformerGithub开源项目单目深度估计
DPT-Hybrid-MiDaS是一款基于Vision Transformer的单目深度估计模型。该模型在140万张图像上训练,利用ViT-hybrid作为主干网络,支持零样本深度估计。在多个数据集上,DPT-Hybrid-MiDaS展现出优于传统方法的性能。这一开源模型为计算机视觉领域的研究人员和开发者提供了有力工具,可用于进一步的微调和应用开发。
timesformer-hr-finetuned-k600 - TimeSformer:空间-时间注意力机制的视频分类模型
模型视频分类TimeSformer计算机视觉Github深度学习开源项目Huggingface机器学习
TimeSformer-hr-finetuned-k600是基于Kinetics-600数据集微调的视频分类模型。该模型利用创新的空间-时间注意力机制,可对600个类别的视频进行分类。由Facebook AI Research开发,适用于多种视频理解任务。研究者和开发者可通过Transformers库轻松应用此模型,实现高效的视频内容分析。
stable-diffusion-2-inpainting - 基于扩散模型的高分辨率图像生成和修复工具
模型计算机视觉图像生成Stable Diffusion人工智能Github深度学习Huggingface开源项目
stable-diffusion-2-inpainting是一个基于扩散模型的图像生成和修复工具。该模型能根据文本提示生成高质量图像,并支持高分辨率图像修复。它采用LAMA的掩码生成策略,结合掩码图像的VAE潜在表示作为额外条件。该模型在英语提示下效果最佳,适用于艺术创作、设计和研究等领域。然而,它也存在一些局限性,如无法生成可读文本,对复杂任务表现欠佳。使用时应注意避免生成有害或带有偏见的内容。
grounding-dino-base - 实现开放集目标检测的创新模型
计算机视觉零样本学习Huggingface深度学习模型Grounding DINOGithub开源项目物体检测
Grounding DINO是一种创新的开放集目标检测模型,结合DINO与文本预训练技术。通过整合文本编码器,该模型将闭集目标检测扩展为零样本目标检测。在COCO数据集上,Grounding DINO达到了52.5 AP的性能。此模型支持研究人员直接进行零样本目标检测,无需额外的标记数据即可识别图像中的物体。
owlv2-base-patch16-ensemble - 基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIPOWLv2计算机视觉
OWLv2是一个基于CLIP的开放词汇目标检测模型。它使用ViT-B/16和masked self-attention Transformer分别作为图像和文本编码器,通过对比学习训练。该模型支持多文本查询的零样本目标检测,无需预定义类别。OWLv2在开放词汇目标检测任务中表现优异,为计算机视觉研究开辟了新方向。
Depth-Anything-V2-Small-hf - 单目深度估计新标杆 精细、稳健且高效
模型Github开源项目Huggingface图像处理Depth Anything V2计算机视觉人工智能深度估计
Depth-Anything-V2-Small-hf是一款基于DPT架构和DINOv2主干的先进单目深度估计模型。经过大规模合成和真实图像训练,它在细节精度和稳健性上超越了前代产品。相比基于稳定扩散的模型,该模型速度提升10倍,且更为轻量。它在零样本深度估计任务中表现卓越,可广泛应用于3D重建和场景理解等领域。研究者和开发者可通过Transformers库便捷地集成和使用这一模型。
siglip-base-patch16-224 - SigLIP改进CLIP模型 实现更高效的零样本图像分类和检索
模型计算机视觉Github开源项目多模态模型Huggingface图像分类SigLIP自然语言处理
SigLIP是一种基于CLIP改进的多模态预训练模型,采用sigmoid损失函数优化语言-图像学习。该模型在WebLI数据集上以224x224分辨率预训练,适用于零样本图像分类和图像-文本检索任务。相比CLIP,SigLIP支持更大批量处理,且在小批量场景下表现更优。用户可通过Transformers库轻松加载和使用SigLIP模型,实现灵活高效的多模态应用。
stable-video-diffusion-img2vid-xt - 图像到视频转换模型Stable Video Diffusion实现动画生成
模型图像到视频生成计算机视觉Stable Video Diffusion人工智能Github深度学习Huggingface开源项目
Stable Video Diffusion Image-to-Video是Stability AI开发的扩散模型,可将静态图像转换为短视频。该模型生成25帧、576x1024分辨率的视频片段,视频质量优于同类产品。适用于艺术创作、教育工具等场景,支持商业和非商业用途。模型存在视频较短、不支持文本控制等局限性。开发者可通过GitHub上的开源代码使用该模型。
DFN5B-CLIP-ViT-H-14-378 - 大规模数据筛选优化的视觉语言预训练系统
CLIP模型图像分类数据过滤网络计算机视觉Github开源项目Huggingface机器学习
DFN5B-CLIP-ViT-H-14-378是一款基于CLIP架构的视觉语言模型,采用数据过滤网络(DFN)技术从43B未筛选的图像-文本对中提取5B高质量数据进行训练。该模型在多项视觉任务中表现优异,平均准确率达70.94%。支持零样本图像分类,可与OpenCLIP框架无缝集成,为计算机视觉和自然语言处理研究提供了高性能的预训练模型基础。
sam-vit-huge - SAM 革新性的通用图像分割模型
模型Github图像分割开源项目HuggingfaceSAM计算机视觉深度学习AI模型
Segment Anything Model (SAM) 是Facebook Research开发的先进图像分割模型。它能根据点或框等简单提示生成精确的对象蒙版,在1100万图像和11亿蒙版的大规模数据集上训练。SAM具备强大的零样本迁移能力,可应用于多种分割任务。模型由视觉编码器、提示编码器和蒙版解码器构成,既可生成单个目标蒙版,也能自动分割整图所有对象。SAM为计算机视觉领域带来了新的可能性。
swinv2-tiny-patch4-window16-256 - Swin Transformer v2:分层特征图构建的高效视觉模型
模型Github神经网络开源项目Huggingface图像分类Swin Transformer v2计算机视觉深度学习
Swin Transformer v2是一种改进的视觉模型,通过合并图像块构建分层特征图,适用于图像分类和密集识别任务。它采用局部窗口自注意力机制,实现了线性计算复杂度。模型引入残差后归一化、余弦注意力和对数间隔连续位置偏置等技术,提升训练稳定性和迁移能力。同时,利用SimMIM自监督预训练方法减少了对大量标记图像的依赖。
vit-base-patch16-384 - Vision Transformer:基于图像分块的高效视觉识别模型
ImageNet模型图像分类计算机视觉Github深度学习Vision TransformerHuggingface开源项目
Vision Transformer (ViT) 是一种基于Transformer架构的视觉识别模型,在ImageNet-21k上进行预训练,并在ImageNet 2012上微调。模型采用图像分块和序列化处理方法,有效处理384x384分辨率的图像。ViT在多个图像分类基准测试中表现优异,适用于各种计算机视觉任务。该预训练模型为研究人员和开发者提供了快速开发高精度图像识别应用的基础。
mobilenet_v1_0.75_192 - 移动设备优化的轻量级卷积神经网络
模型图像分类计算机视觉MobileNet V1Github神经网络深度学习Huggingface开源项目
MobileNet V1是一款为移动设备优化的轻量级卷积神经网络,在ImageNet-1k数据集上以192x192分辨率预训练。该模型在延迟、大小和准确性间实现平衡,适用于图像分类、物体检测等多种视觉任务。通过Hugging Face框架,用户可轻松使用此支持PyTorch的模型进行1000类ImageNet图像分类。MobileNet V1以其高效性能,为移动设备上的计算机视觉应用提供了实用解决方案。
japanese-cloob-vit-b-16 - 基于CLOOB的日语图像文本融合模型
计算机视觉Huggingface模型人工智能Github开源项目自然语言处理rinnaCLOOB
这是一个专为日语开发的CLOOB(对比离一升压)模型,用于图像和文本的融合处理。模型采用ViT-B/16架构作为图像编码器,12层BERT作为文本编码器,并在CC12M数据集上进行训练。该模型提供了简单的使用方法和实现示例,可应用于图像识别和自然语言处理任务。模型在Apache 2.0许可下发布,允许用于研究和商业用途。
InternVL2-2B - 多模态大语言模型支持多语言及多媒体理解
模型多模态大语言模型计算机视觉人工智能GithubInternVL2Huggingface开源项目自然语言处理
InternVL2-2B是一个开源的多模态大语言模型,参数量为2.2B。该模型在文档理解、图表分析和场景文本识别等任务中表现优异,性能接近商业闭源模型。InternVL2-2B支持8K上下文窗口,可处理长文本、多图像和视频输入,大幅提升了多模态理解能力。作为一款出色的开源模型,InternVL2-2B为多模态人工智能研究和应用提供了新的可能性。
sam-vit-large - 高性能AI图像分割模型 多种输入方式生成精确物体遮罩
Segment Anything Model模型零样本学习计算机视觉Github深度学习图像分割Huggingface开源项目
sam-vit-large是Segment Anything Model (SAM)的一个版本,由Facebook开发。这是一个先进的计算机视觉模型,可根据点、框等输入生成高精度物体遮罩。经过1100万图像和11亿遮罩的训练,该模型展现出优秀的零样本性能。它能自动生成图像中所有物体的遮罩,适用于多种图像分割任务,为计算机视觉研究提供了新的基础工具。
pix2struct-tiny-random - 高效图像到文本转换的轻量级模型
计算机视觉Huggingface模型机器学习Github图像到文本开源项目自然语言处理MIT许可证
pix2struct-tiny-random是一个开源的轻量级图像到文本转换模型。该模型体积小、速度快,适合在资源受限环境中使用。它能够从图像中提取和生成文本信息,可用于开发图像理解和文本生成应用。该项目采用MIT许可证,标记为image-to-text管道。
detr-resnet-101 - DETR目标检测模型:结合ResNet-101与Transformer架构
Transformer计算机视觉Huggingface模型COCOGithub开源项目DETR物体检测
DETR是一种创新的端到端目标检测模型,结合了Transformer架构和ResNet-101骨干网络。该模型在COCO 2017数据集上训练,能高效检测图像中的多个物体。通过独特的对象查询机制和双向匹配损失函数,DETR在目标检测任务中表现优异,达到43.5%的平均精度。这一方法为计算机视觉领域开辟了新的研究方向。
mask2former-swin-base-coco-panoptic - 多任务图像分割的先进模型
语义分割计算机视觉Huggingface模型深度学习Mask2FormerGithub开源项目图像分割
Mask2Former-swin-base-coco-panoptic是一个基于COCO全景分割数据集训练的先进图像分割模型。它采用统一方法处理实例、语义和全景分割任务,通过预测掩码集合和对应标签实现多任务分割。该模型引入多尺度可变形注意力Transformer和masked attention等技术,在性能和效率上超越前代方法。Mask2Former为计算机视觉领域提供了versatile的图像分割解决方案,适用于多种分割场景。
vit_large_patch14_clip_224.openai - 探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力
HuggingfaceCLIP开源项目模型Github零样本学习计算机视觉偏见公平性
OpenAI开发的CLIP模型通过对比损失训练大量的图像与文本对展示了其在计算机视觉任务中实现零样本分类的能力。这一模型尤其适合AI研究人员用以深入理解计算机视觉模型的鲁棒性及泛化能力,同时关注于它的潜在局限与偏见。尽管在细粒度分类和对象计数任务中存在不足,CLIP提供了对于模型在不同任务表现及相关风险的深入认知。需要注意的是,CLIP模型并不适用于商业用途,且其数据训练主要基于英语环境。
Llama-3.2-11B-Vision - Meta开发的多模态大语言模型 支持视觉识别和图像推理
模型GithubLLAMA 3.2开源项目多模态模型Huggingface机器学习自然语言处理计算机视觉
Llama-3.2-11B-Vision是Meta开发的多模态大语言模型,支持图像和文本输入、文本输出。该模型在视觉识别、图像推理、图像描述和通用图像问答方面表现出色。它基于Llama 3.1文本模型构建,采用优化的Transformer架构,通过监督微调和人类反馈强化学习进行对齐。模型支持128K上下文长度,经过60亿(图像,文本)对训练,知识截止到2023年12月。Llama-3.2-11B-Vision为商业和研究用途提供视觉语言处理能力。
vit_base_patch16_clip_224.openai - CLIP:跨模态视觉语言理解模型
CLIP模型图像分类零样本学习计算机视觉人工智能GithubHuggingface开源项目
CLIP是OpenAI开发的视觉-语言预训练模型,在timm库中实现。它使用ViT-B/16 Transformer作为图像编码器,masked self-attention Transformer作为文本编码器,通过对比学习优化图像-文本对相似度。CLIP在零样本图像分类任务中展现出优秀的鲁棒性和泛化能力,但在细粒度分类和物体计数方面仍有局限。该模型主要面向AI研究人员,用于探索计算机视觉模型的能力和局限性。
unidepth-v2-vitl14 - 单目度量深度估计模型 支持多样化场景
模型PyTorch计算机视觉GithubUniDepth深度估计机器学习模型Huggingface开源项目
UniDepth-v2-vitl14是一个基于PyTorch的单目度量深度估计模型,采用ViT-L/14架构。该模型可从单张2D图像预测场景深度,支持Hugging Face模型中心集成。UniDepth-v2-vitl14适用于计算机视觉和3D感知领域的研究与开发。
marigold-normals-v0-1 - 单目图像的表面法线估计开源项目
模型扩散模型Marigold Normals计算机视觉单目图像处理表面法线估计GithubHuggingface开源项目
Marigold Normals是一个开源的计算机视觉项目,专注于从单张图像估计表面法线。该模型基于扩散技术,利用Stable Diffusion的视觉知识进行训练,能够对每个像素进行精确的法线计算。它具有出色的场景理解能力,适用于各种实际环境,并支持零样本推理。项目在GitHub上开源,提供了详细的技术论文和在线演示。
MambaVision-B-1K - MambaVision结合Mamba和Transformer的创新视觉骨干网络
模型Github开源项目Huggingface图像分类特征提取深度学习模型计算机视觉MambaVision
MambaVision-B-1K是一种融合Mamba和Transformer优势的混合视觉骨干网络。通过重新设计Mamba结构和在末层添加自注意力模块,该模型增强了视觉特征建模能力和长程空间依赖捕获。在ImageNet-1K分类任务中,MambaVision-B-1K在Top-1准确率和吞吐量方面实现了新的SOTA Pareto前沿。这一模型适用于图像分类和特征提取,支持多种输入分辨率,为计算机视觉应用提供了高效的解决方案。
vitmatte-base-composition-1k - Vision Transformer驱动的图像抠图模型
计算机视觉Huggingface模型深度学习ViTMatte图像抠图视觉transformerGithub开源项目
ViTMatte-base-composition-1k是一个基于Vision Transformer的图像抠图模型,在Composition-1k数据集上训练。该模型采用ViT结构和轻量级头部,能准确估计图像前景对象。ViTMatte在图像抠图任务中表现优异,为图像前景提取提供了高效解决方案。
yolov10m - 高效的实时目标检测系统
计算机视觉PyTorchCOCO数据集YOLOv10模型Github开源项目目标检测Huggingface
YOLOv10m是一个开源的目标检测项目,利用PyTorch模型和COCO数据集实现高效的计算机视觉解决方案。用户可以方便地进行训练、验证,并将模型上传至库,非常适合多种技术水平的使用者进行实时目标检测应用。
llava-onevision-qwen2-0.5b-ov-hf - 推动单图、多图和视频理解的多模态大语言模型
模型多模态语言模型图像理解LLaVA-Onevision计算机视觉Github视频理解Huggingface开源项目
LLaVA-Onevision是基于Qwen2的多模态大语言模型,通过微调GPT生成的多模态指令数据训练而成。作为首个同时推动单图、多图和视频场景性能边界的模型,它展现出强大的视频理解和跨场景能力,实现了从图像到视频的任务迁移。该模型支持多图像和多提示生成,为多样化的视觉理解任务提供了灵活解决方案。
DepthCrafter - 生成开放世界视频的长序列一致深度估计
视频处理模型DepthCrafter计算机视觉人工智能Github深度估计Huggingface开源项目
DepthCrafter是一个开源深度估计项目,专门为开放世界视频生成时间一致的长序列深度图。该项目无需相机姿态或光流信息,可直接处理复杂场景视频,并保留精细细节。DepthCrafter在计算机视觉和3D重建领域具有潜在应用,为视频深度估计研究开辟新方向。
depth-anything-large-hf - 基于DPT和DINOv2的大规模深度估计模型
模型计算机视觉人工智能Github图像处理Depth Anything深度估计Huggingface开源项目
Depth Anything是一个基于DPT架构和DINOv2主干的深度估计模型,通过6200万张图像训练而成。该模型在相对和绝对深度估计方面均达到最先进水平,可用于零样本深度估计等任务。它提供简单的pipeline接口,支持任意尺寸输入图像,并输出高质量深度图。Depth Anything为计算机视觉领域提供了强大的深度感知能力,可应用于多个场景。
InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解
模型Github开源项目HuggingfaceInternVL2自然语言处理人工智能计算机视觉多模态大语言模型
InternVL2-1B是一款新型多模态大语言模型,结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异,能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出,部分能力可与商业模型比肩。通过采用8k上下文窗口训练,该模型大幅提升了处理长输入序列的能力。
dpt-large - 基于视觉变换器的高精度单目深度估计模型
模型GithubDPT-Large视觉变换器开源项目Huggingface密集预测单目深度估计计算机视觉
DPT-Large是一种基于视觉变换器的密集预测模型,专门用于单目深度估计。该模型在140万张图像上训练,具有优秀的零样本迁移能力。DPT-Large使用ViT作为主干网络,并增加了特定的颈部和头部结构,能够精确估计图像深度信息。在多项基准测试中,DPT-Large展现出优异性能,为计算机视觉领域的深度估计任务提供了有力支持。
sam2-hiera-large - SAM2模型实现图像和视频智能分割
模型视频分割计算机视觉Github图像分割开源项目Huggingface机器学习SAM 2
SAM2-hiera-large是FAIR开发的图像和视频分割基础模型,支持可提示的视觉分割任务。模型提供简单API,适用于图像和视频预测。通过添加提示点或边界框,用户可实时获取分割结果,并在视频中传播提示。该模型为计算机视觉研究和应用提供了新的可能性。