#图像处理

dinov2-large - 基于Vision Transformer的大规模自监督视觉特征学习模型

特征提取图像处理HuggingfaceDINOv2模型Vision TransformerGithub开源项目自监督学习

DINOv2-large是基于Vision Transformer架构的大规模视觉模型，采用自监督学习方法训练。该模型能从海量未标注图像中学习视觉特征表示，适用于多种下游视觉任务。它将图像转换为固定大小的patch序列输入Transformer编码器，提取高质量特征。研究人员可直接使用其预训练编码器进行特征提取，或针对特定任务进行微调，体现了模型的通用性和灵活性。

Depth-Anything-V2-Small-hf - 单目深度估计新标杆精细、稳健且高效

模型Github开源项目Huggingface图像处理Depth Anything V2计算机视觉人工智能深度估计

Depth-Anything-V2-Small-hf是一款基于DPT架构和DINOv2主干的先进单目深度估计模型。经过大规模合成和真实图像训练，它在细节精度和稳健性上超越了前代产品。相比基于稳定扩散的模型，该模型速度提升10倍，且更为轻量。它在零样本深度估计任务中表现卓越，可广泛应用于3D重建和场景理解等领域。研究者和开发者可通过Transformers库便捷地集成和使用这一模型。

segformer-b1-finetuned-ade-512-512 - SegFormer-b1在ADE20k数据集上微调的语义分割模型

模型语义分割Github图像处理深度学习TransformerSegFormer开源项目Huggingface

SegFormer-b1是一种针对语义分割任务的深度学习模型，在ADE20k数据集上进行了微调。该模型结合了层次化Transformer编码器和轻量级MLP解码头，在512x512分辨率下展现出优秀的分割效果。模型经过ImageNet-1k预训练后，通过添加解码头并在特定数据集上微调，可直接应用于语义分割或作为其他相关任务的基础。

vit-mae-large - MAE预训练的大型Vision Transformer模型

模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习

这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。

table-transformer-detection - Table Transformer：先进的文档表格检测模型

Table Transformer图像处理Huggingface模型深度学习文档分析表格检测Github开源项目

Table Transformer是一个专门用于文档表格检测的开源模型。它基于DETR架构，在PubTables1M数据集上训练，能够有效地从非结构化文档中识别和定位表格。该模型采用Transformer结构，支持多种文档格式的处理。Table Transformer提供了简洁的API，方便开发者集成表格检测功能。凭借其在准确性和性能方面的优异表现，Table Transformer成为文档分析和信息提取领域的重要工具。

man_woman_face_image_detection - ViT模型实现98.7%准确率的人脸性别识别

ViT图像处理人脸识别性别分类Huggingface模型机器学习Github开源项目

这个开源项目利用Vision Transformer (ViT) 模型实现人脸性别识别，准确率达98.7%。模型基于google/vit-base-patch16-224-in21k进行微调，能够根据人脸图像判断性别。项目展示了优秀的精确度和召回率，为人脸分析和用户画像等应用领域提供了有力支持。

Depth-Anything-V2-Large-hf - 高效精准的单目深度估计AI模型

模型计算机视觉Github神经网络图像处理深度估计Depth Anything V2Huggingface开源项目

Depth-Anything-V2-Large-hf是一个基于DPT架构和DINOv2骨干网络的单目深度估计模型。通过大规模合成和真实图像训练，该模型在深度估计精度和效率上取得了显著进展。它提供更细腻的深度细节，具有更强的鲁棒性，同时比基于稳定扩散的模型效率提高10倍。作为计算机视觉领域的有力工具，该模型可应用于零样本深度估计等多种任务。

trocr-large-printed - 基于Transformer的大规模印刷文本OCR模型

光学字符识别模型TrOCRGithub图像处理深度学习Huggingface开源项目自然语言处理

trocr-large-printed是一个基于Transformer架构的大规模光学字符识别(OCR)模型，专为印刷文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器，可高效处理单行文本图像。通过在SROIE数据集上的微调，trocr-large-printed为各类印刷文档的文本识别任务提供了准确可靠的解决方案。

Ovis1.6-Gemma2-9B - Ovis1.6-Gemma2-9B开源多模态大语言模型的嵌入对齐解决方案

图像处理Github模型transformers开源项目多模态Huggingface大语言模型Ovis1.6

Ovis1.6-Gemma2-9B是一个开源的多模态大语言模型，致力于视觉与文本嵌入的高效对齐。相比Ovis1.5，它在图像处理分辨率、数据集规模与质量上都有所提升，并通过DPO训练提高总性能。该模型在OpenCompass基准测试中展现了优异表现，支持图像和文本的多模态输入处理。更多使用指导与代码示例请访问其GitHub页面。

kandinsky-2-1 - 基于CLIP和扩散技术的高级文本到图像生成模型

图像处理Huggingface模型文本生成图像机器学习人工智能Github开源项目Kandinsky 2.1

Kandinsky 2.1是一个结合CLIP和潜在扩散技术的文本条件扩散模型。该模型采用CLIP作为文本和图像编码器,并利用扩散图像先验在CLIP模态的潜在空间间建立映射,从而提升视觉效果并拓展图像混合与文本引导图像操作的可能性。Kandinsky 2.1支持文本到图像生成、文本引导的图像到图像转换以及图像插值等功能,在COCO_30k数据集的零样本测试中获得8.21的FID评分。

control_v1p_sd15_qrcode_monster - ControlNet模型实现创意可扫描二维码生成

图像处理HuggingfaceQR码生成模型ControlnetGithub开源项目AI图像生成Stable Diffusion

这是一个基于Stable Diffusion 1.5的ControlNet扩展模型，专注于生成创意且可扫描的二维码。模型采用灰色背景技术，提高了图像融合度、可读性和创造性。通过调整提示词和ControlNet引导尺度等参数，可生成独特的二维码图像。虽然不是所有生成的代码都可读，但可通过多次尝试获得满意结果。该模型为艺术创作和营销等领域开辟了新的应用可能。

Llama-3.2-11b-vision-uncensored - 图像处理与自然语言生成的先进集成工具

AI助手图像处理HuggingfaceGithub开源项目模型自然语言生成alpindale/Llama-3.2-11B-Vision-Instruct模型量化

Llama-3.2-11b-vision-uncensored项目结合了图像处理和自然语言生成，使用Peft和torch库，专注于提供直接且无偏见的AI响应。自定义配置支持高效模型加载，适合要求高度注意力的场景。

vilt-b32-finetuned-vqa - ViLT：基于Transformer的无卷积视觉语言问答模型

模型Github视觉问答开源项目Huggingface图像处理Vision-and-Language TransformerViLT自然语言处理

vilt-b32-finetuned-vqa是一个在VQAv2数据集上微调的视觉问答模型，基于ViLT架构。该模型无需卷积或区域监督，可高效处理图像和文本的多模态任务。通过PyTorch，开发者能轻松实现视觉问答功能，只需输入图像和问题即可。这一模型为视觉语言理解领域的研究和应用提供了有力支持。

dinov2-giant - 无监督大规模视觉特征学习模型

模型自监督学习Github图像处理DINOv2Vision Transformer特征提取开源项目Huggingface

DINOv2-giant是一款基于Vision Transformer架构的大规模视觉模型，采用DINOv2无监督学习方法训练。该模型能够从未标注的图像中提取强大的视觉特征，将图像分割为固定大小的块序列作为输入，通过Transformer编码器处理后输出图像的隐含表示。研究人员可利用此预训练模型作为基础，添加简单的线性层即可完成各种下游视觉任务的微调，为计算机视觉领域提供了强大的基础工具。

depth-anything-large-hf - 基于DPT和DINOv2的大规模深度估计模型

模型计算机视觉人工智能Github图像处理Depth Anything深度估计Huggingface开源项目

Depth Anything是一个基于DPT架构和DINOv2主干的深度估计模型，通过6200万张图像训练而成。该模型在相对和绝对深度估计方面均达到最先进水平，可用于零样本深度估计等任务。它提供简单的pipeline接口，支持任意尺寸输入图像，并输出高质量深度图。Depth Anything为计算机视觉领域提供了强大的深度感知能力，可应用于多个场景。

Depth-Anything-V2-Base-hf - 高效精细的单目深度估计模型提供稳健性能

图像处理计算机视觉深度估计Huggingface模型Depth Anything V2Github开源项目神经网络模型

Depth-Anything-V2-Base-hf是一个基于transformers库的单目深度估计模型。该模型通过大规模合成和真实图像训练，相比V1版本提供更细致的细节和更强的稳健性。它比基于SD的模型效率高10倍且更轻量化，在预训练基础上展现出色的微调性能。模型采用DPT架构和DINOv2骨干网络，适用于零样本深度估计等任务，在相对和绝对深度估计方面表现优异。

llama3-llava-next-8b-hf - LLaVA-NeXT：Llama 3驱动的多模态AI模型

模型LLaVA-NeXTGithub图像处理深度学习Huggingface开源项目多模态自然语言处理

LLaVA-NeXT是一个基于Llama 3的多模态AI模型，整合了预训练语言模型和视觉编码器。通过高质量数据混合和强化语言骨干网络，该模型在图像描述、视觉问答和多模态对话等任务中表现出色。LLaVA-NeXT支持Python接口，并提供4位量化和Flash Attention 2优化，以提升性能和效率。作为开源项目，LLaVA-NeXT为研究人员和开发者提供了探索多模态AI的有力工具。

dino-vits16 - DINO训练的小型Vision Transformer模型及其应用

模型开源项目Huggingface自监督学习DINO图像处理Vision Transformer特征提取Github

dino-vits16是一个基于DINO方法训练的小型Vision Transformer模型。该模型在ImageNet-1k数据集上进行自监督预训练，能够有效学习图像特征表示。它采用16x16像素的图像块作为输入，可应用于多种视觉任务。dino-vits16展示了自监督学习在计算机视觉领域的潜力，为图像分类等下游任务奠定了基础。

Depth-Anything-V2-Small - 先进高效的开源深度估计工具

模型GithubDepth-Anything-V2开源项目Huggingface机器学习图像处理计算机视觉深度估计

Depth-Anything-V2-Small是一个开源的单目深度估计模型，基于大规模合成和真实图像数据训练。相比前代产品，该模型提供更精细的深度细节和更强的鲁棒性。它比同类基于稳定扩散的模型运行速度快10倍，且更加轻量化。模型支持高效的图像深度推断，可用于各种计算机视觉应用场景。

UNI - 病理学AI基础模型助力精准医疗诊断

图像处理Huggingface模型深度学习视觉编码器Github开源项目UNI病理学

UNI是一个基于1亿张病理图像预训练的视觉编码器,为病理学AI诊断提供了强大的基础模型。它在34项临床任务中展现出卓越性能,特别是在罕见和代表性不足的癌症类型诊断上。UNI不使用公开数据集进行预训练,有助于研究人员在避免数据污染的前提下构建和评估病理AI模型。该模型遵循CC-BY-NC-ND 4.0许可证,仅限非商业学术研究使用。

llava-onevision-qwen2-7b-ov-chat - LLaVA-OneVision多模态AI模型支持图像和视频交互

多模态图像处理Huggingface模型深度学习Github开源项目自然语言处理LLaVA-OneVision

LLaVA-OneVision是一款基于Qwen2架构的多模态AI模型，专门针对聊天场景进行优化。该模型通过多阶段训练，包括LCS-558K预训练、高质量合成数据训练和单图数据训练等，最终经过RLHF进一步提升性能。它能够与图像、多图和视频进行交互，同时保持良好的指令遵循能力，是一个versatile的视觉语言模型。

llava-onevision-qwen2-0.5b-si - 多模态AI模型实现图像、多图和视频的智能交互

模型Github图像处理LLaVA-OneVision视觉语言模型Qwen2Huggingface开源项目多模态

LLaVA-OneVision是一个基于Qwen2的多模态AI模型，能够处理图像、多图和视频输入。它具有32K tokens的上下文窗口，支持英文和中文交互。该模型在AI2D、ChartQA和DocVQA等多项任务中表现优异，为视觉语言应用提供了强大的基础。LLaVA-OneVision采用LLaVA-OneVision数据集进行训练，可轻松集成到各类视觉语言项目中。

surya_rec - surya项目专用的多语言文本识别模型

模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目

surya_rec是一个开源的文本识别模型，基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分，专注于多语言文本的识别和提取。surya_rec采用深度学习技术，旨在高效识别和提取多语言文本内容，支持文档分析和信息提取。模型注重准确性和性能，为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。

xgen-mm-phi3-mini-instruct-r-v1 - Salesforce开发的大规模多模态模型支持高分辨率图像处理

XGen-MM视觉语言模型多模态模型图像处理Huggingface模型AI研究Github开源项目

xgen-mm-phi3-mini-instruct-r-v1是Salesforce AI Research开发的大规模多模态模型。该模型在5B参数规模下实现了开源和闭源视觉语言模型中的领先性能，支持高分辨率图像处理，并具备出色的上下文学习能力。模型通过大规模训练提升了多模态AI技术水平，为图像理解和文本生成任务提供了强大支持。

Florence-2-base-ft - 多任务视觉AI模型实现图像理解与分析

模型Florence-2多任务学习视觉模型Github图像处理Huggingface开源项目自然语言处理

Florence-2-base-ft是一款多任务视觉AI模型，可处理多种视觉和视觉-语言任务。该模型通过解释简单的文本提示，执行图像描述、物体检测和分割等操作。在图像描述、视觉问答和引用表达理解等基准测试中，Florence-2-base-ft展现出优秀性能。这个拥有2.3亿参数的模型为各类视觉任务提供了统一的表示方法，展现了人工智能在视觉理解领域的最新进展。

yolos-tiny - 轻量级Vision Transformer目标检测模型

模型视觉转换器目标检测YOLOSGithub图像处理COCO数据集Huggingface开源项目

YOLOS-tiny是基于Vision Transformer的轻量级目标检测模型,在COCO 2017数据集上微调。模型采用简单架构,通过双边匹配损失训练,可预测物体类别和边界框。在COCO验证集上达到28.7 AP,与复杂框架性能相当。YOLOS-tiny为资源受限场景提供高效目标检测方案,适用于各种计算机视觉应用。

deformable-detr-DocLayNet - Deformable DETR模型实现文档布局分析基于DocLayNet数据集

图像处理对象检测Huggingface模型DocLayNetGithub开源项目Deformable DETR文档布局分析

这是一个基于Deformable DETR架构的文档布局分析模型，在DocLayNet数据集上训练。该模型可检测和分类11种文档布局元素，在DocLayNet测试集上实现57.1 mAP。它采用transformer编码器-解码器结构，结合CNN主干网络，使用双向匹配损失训练。此模型可用于文档布局分析任务，也可集成到Aryn分区服务等应用中。

paligemma-3b-pt-224 - 基于SigLIP和Gemma的多功能视觉语言模型

模型GithubPaliGemma开源项目Huggingface图像处理自然语言处理多语言视觉语言模型

PaliGemma是一款结合SigLIP视觉模型和Gemma语言模型的视觉语言模型。该模型可处理图像和文本输入并生成文本输出,支持多语言。PaliGemma在图像字幕、视觉问答、文本阅读、物体检测等多种视觉语言任务中表现优异。模型采用Transformer架构,拥有30亿参数,经过大规模多语言数据预训练,可通过微调应用于特定任务。

Depth-Anything-V2-Large - 单目深度估计新突破：高精度细节与高效性能的完美平衡

模型计算机视觉Github神经网络图像处理深度估计Huggingface开源项目Depth Anything V2

Depth-Anything-V2-Large是一款基于大规模数据训练的单目深度估计模型。该模型通过595K合成标记图像和62M+真实未标记图像的训练，在细节精度和鲁棒性方面超越了前代版本。与基于SD的模型相比，它不仅更加高效和轻量，处理速度提升了10倍，还在预训练基础上展现出优秀的微调能力。这一模型为计算机视觉领域提供了性能卓越的深度估计解决方案。

Florence-2-large-no-flash-attn - 基于统一表示的多功能视觉人工智能模型

模型多任务学习Github视觉基础模型开源项目Florence-2Huggingface图像处理自然语言处理

Florence-2-large-no-flash-attn是一款由微软开发的视觉基础模型。它采用提示式方法处理多种视觉和视觉语言任务,包括图像描述、目标检测和分割。该模型利用54亿个注释的大规模数据集进行多任务学习,在零样本和微调场景下均表现出色。Florence-2的序列到序列架构使其在各类下游任务中展现优异性能,为统一视觉表示提供了新的可能性。

paligemma-3b-mix-448 - 基于SigLIP和Gemma的多语言视觉语言模型

视觉语言模型图像处理Huggingface模型PaliGemmaGithub多语言开源项目微调

PaliGemma是一款基于SigLIP视觉模型和Gemma语言模型的视觉语言模型，采用3B参数的Transformer架构。该模型支持多语言输入输出，可用于图像描述、视觉问答和文本识别等任务。PaliGemma在多个大规模数据集上经过预训练，并通过严格的数据过滤确保了训练数据质量。模型适用于各类视觉语言任务的微调，在多项基准测试中展现了优异性能。

segformer-b5-finetuned-ade-640-640 - SegFormer-b5模型用于ADE20k数据集的语义分割

语义分割Transformer图像处理Huggingface模型深度学习Github开源项目SegFormer

SegFormer-b5是一个针对ADE20k数据集640x640分辨率微调的语义分割模型。该模型采用层次化Transformer编码器和轻量级MLP解码头，在ADE20K等基准测试中表现优异。模型在ImageNet-1k预训练后，添加解码头并在目标数据集上微调，可应用于多种语义分割任务。

dpt-beit-base-384 - 基于BEiT主干的DPT模型实现单目深度估计

图像处理神经网络计算机视觉深度估计Huggingface模型Github开源项目DPT

DPT (Dense Prediction Transformer) 是一个基于BEiT主干的模型，专门用于单目深度估计。该模型在140万张图像上训练，可进行零样本深度估计。采用Transformer架构，具备强大的密集预测能力，能生成高质量深度图。模型可通过Python代码或pipeline API轻松使用，为计算机视觉任务提供了有力工具。

llava-onevision-qwen2-72b-ov-chat - 多模态大语言模型支持图像、多图和视频交互

模型人工智能Github图像处理LLaVA-OneVisionHuggingface开源项目多模态自然语言处理

llava-onevision-qwen2-72b-ov-chat是一个为聊天场景优化的多模态大语言模型。该模型基于llava-onevision-72b-ov构建，通过迭代DPO训练提升了聊天能力，同时保持了良好的指令遵循能力。模型支持图像、多图和视频交互，在英语和中文方面表现出色。研究显示，其采用的迭代DPO训练方法有效增强了模型的聊天表现。

llava-onevision-qwen2-0.5b-ov - 支持多模态输入的视觉语言AI模型

多模态图像处理Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision

LLaVA-OneVision-qwen2-0.5b-ov是基于Qwen2语言模型开发的多模态AI模型。该模型可处理图像、多图和视频输入,支持英语和中文交互。在LLaVA-OneVision数据集上训练后,模型具备32K tokens的上下文窗口,能执行图像问答、视频理解等多种视觉任务。其在多个多模态基准测试中表现优异,展现了强大的视觉语言处理能力。

mit-b0 - 轻量级视觉Transformer用于语义分割

模型语义分割开源项目Huggingface图像处理SegFormerTransformerGithub深度学习

mit-b0是SegFormer系列中的轻量级模型，采用分层Transformer编码器架构，在ImageNet-1k数据集上预训练。这个模型专为语义分割任务设计，结合了Transformer的特征提取能力和轻量级MLP解码头。mit-b0在ADE20K等基准测试中表现出色，为研究人员提供了一个可靠的预训练基础，可在特定数据集上进行进一步微调和优化。

IOPaint: 革新图像编辑的开源AI工具

2024年08月29日

ImaginAIry: 强大的AI图像生成工具

2024年08月30日

ImaginAIry: 强大的AI图像生成Python库

2024年08月30日

Emgu CV:强大的跨平台.NET计算机视觉库

2024年08月30日

SmartOpenCV: 增强Android端OpenCV图像预览功能的开源库

2024年08月30日

Emgu CV: 跨平台.NET包装器让OpenCV图像处理更简单

2024年08月30日

SmartOpenCV: Android端OpenCV增强库的革新之作

2024年08月30日

GFPGAN: 实用的真实世界人脸修复算法

2024年08月30日

阿里最新开源！居然能改变年龄和性别！快来感受不一样的自己

2024年08月02日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com