#图像处理
dinov2-large - 基于Vision Transformer的大规模自监督视觉特征学习模型
特征提取图像处理HuggingfaceDINOv2模型Vision TransformerGithub开源项目自监督学习
DINOv2-large是基于Vision Transformer架构的大规模视觉模型,采用自监督学习方法训练。该模型能从海量未标注图像中学习视觉特征表示,适用于多种下游视觉任务。它将图像转换为固定大小的patch序列输入Transformer编码器,提取高质量特征。研究人员可直接使用其预训练编码器进行特征提取,或针对特定任务进行微调,体现了模型的通用性和灵活性。
Depth-Anything-V2-Small-hf - 单目深度估计新标杆 精细、稳健且高效
模型Github开源项目Huggingface图像处理Depth Anything V2计算机视觉人工智能深度估计
Depth-Anything-V2-Small-hf是一款基于DPT架构和DINOv2主干的先进单目深度估计模型。经过大规模合成和真实图像训练,它在细节精度和稳健性上超越了前代产品。相比基于稳定扩散的模型,该模型速度提升10倍,且更为轻量。它在零样本深度估计任务中表现卓越,可广泛应用于3D重建和场景理解等领域。研究者和开发者可通过Transformers库便捷地集成和使用这一模型。
segformer-b1-finetuned-ade-512-512 - SegFormer-b1在ADE20k数据集上微调的语义分割模型
模型语义分割Github图像处理深度学习TransformerSegFormer开源项目Huggingface
SegFormer-b1是一种针对语义分割任务的深度学习模型,在ADE20k数据集上进行了微调。该模型结合了层次化Transformer编码器和轻量级MLP解码头,在512x512分辨率下展现出优秀的分割效果。模型经过ImageNet-1k预训练后,通过添加解码头并在特定数据集上微调,可直接应用于语义分割或作为其他相关任务的基础。
vit-mae-large - MAE预训练的大型Vision Transformer模型
模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习
这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。
table-transformer-detection - Table Transformer:先进的文档表格检测模型
Table Transformer图像处理Huggingface模型深度学习文档分析表格检测Github开源项目
Table Transformer是一个专门用于文档表格检测的开源模型。它基于DETR架构,在PubTables1M数据集上训练,能够有效地从非结构化文档中识别和定位表格。该模型采用Transformer结构,支持多种文档格式的处理。Table Transformer提供了简洁的API,方便开发者集成表格检测功能。凭借其在准确性和性能方面的优异表现,Table Transformer成为文档分析和信息提取领域的重要工具。
man_woman_face_image_detection - ViT模型实现98.7%准确率的人脸性别识别
ViT图像处理人脸识别性别分类Huggingface模型机器学习Github开源项目
这个开源项目利用Vision Transformer (ViT) 模型实现人脸性别识别,准确率达98.7%。模型基于google/vit-base-patch16-224-in21k进行微调,能够根据人脸图像判断性别。项目展示了优秀的精确度和召回率,为人脸分析和用户画像等应用领域提供了有力支持。
Depth-Anything-V2-Large-hf - 高效精准的单目深度估计AI模型
模型计算机视觉Github神经网络图像处理深度估计Depth Anything V2Huggingface开源项目
Depth-Anything-V2-Large-hf是一个基于DPT架构和DINOv2骨干网络的单目深度估计模型。通过大规模合成和真实图像训练,该模型在深度估计精度和效率上取得了显著进展。它提供更细腻的深度细节,具有更强的鲁棒性,同时比基于稳定扩散的模型效率提高10倍。作为计算机视觉领域的有力工具,该模型可应用于零样本深度估计等多种任务。
trocr-large-printed - 基于Transformer的大规模印刷文本OCR模型
光学字符识别模型TrOCRGithub图像处理深度学习Huggingface开源项目自然语言处理
trocr-large-printed是一个基于Transformer架构的大规模光学字符识别(OCR)模型,专为印刷文本识别而设计。该模型结合了图像Transformer编码器和文本Transformer解码器,可高效处理单行文本图像。通过在SROIE数据集上的微调,trocr-large-printed为各类印刷文档的文本识别任务提供了准确可靠的解决方案。
Ovis1.6-Gemma2-9B - Ovis1.6-Gemma2-9B开源多模态大语言模型的嵌入对齐解决方案
图像处理Github模型transformers开源项目多模态Huggingface大语言模型Ovis1.6
Ovis1.6-Gemma2-9B是一个开源的多模态大语言模型,致力于视觉与文本嵌入的高效对齐。相比Ovis1.5,它在图像处理分辨率、数据集规模与质量上都有所提升,并通过DPO训练提高总性能。该模型在OpenCompass基准测试中展现了优异表现,支持图像和文本的多模态输入处理。更多使用指导与代码示例请访问其GitHub页面。
kandinsky-2-1 - 基于CLIP和扩散技术的高级文本到图像生成模型
图像处理Huggingface模型文本生成图像机器学习人工智能Github开源项目Kandinsky 2.1
Kandinsky 2.1是一个结合CLIP和潜在扩散技术的文本条件扩散模型。该模型采用CLIP作为文本和图像编码器,并利用扩散图像先验在CLIP模态的潜在空间间建立映射,从而提升视觉效果并拓展图像混合与文本引导图像操作的可能性。Kandinsky 2.1支持文本到图像生成、文本引导的图像到图像转换以及图像插值等功能,在COCO_30k数据集的零样本测试中获得8.21的FID评分。
control_v1p_sd15_qrcode_monster - ControlNet模型实现创意可扫描二维码生成
图像处理HuggingfaceQR码生成模型ControlnetGithub开源项目AI图像生成Stable Diffusion
这是一个基于Stable Diffusion 1.5的ControlNet扩展模型,专注于生成创意且可扫描的二维码。模型采用灰色背景技术,提高了图像融合度、可读性和创造性。通过调整提示词和ControlNet引导尺度等参数,可生成独特的二维码图像。虽然不是所有生成的代码都可读,但可通过多次尝试获得满意结果。该模型为艺术创作和营销等领域开辟了新的应用可能。
Llama-3.2-11b-vision-uncensored - 图像处理与自然语言生成的先进集成工具
AI助手图像处理HuggingfaceGithub开源项目模型自然语言生成alpindale/Llama-3.2-11B-Vision-Instruct模型量化
Llama-3.2-11b-vision-uncensored项目结合了图像处理和自然语言生成,使用Peft和torch库,专注于提供直接且无偏见的AI响应。自定义配置支持高效模型加载,适合要求高度注意力的场景。
vilt-b32-finetuned-vqa - ViLT:基于Transformer的无卷积视觉语言问答模型
模型Github视觉问答开源项目Huggingface图像处理Vision-and-Language TransformerViLT自然语言处理
vilt-b32-finetuned-vqa是一个在VQAv2数据集上微调的视觉问答模型,基于ViLT架构。该模型无需卷积或区域监督,可高效处理图像和文本的多模态任务。通过PyTorch,开发者能轻松实现视觉问答功能,只需输入图像和问题即可。这一模型为视觉语言理解领域的研究和应用提供了有力支持。
dinov2-giant - 无监督大规模视觉特征学习模型
模型自监督学习Github图像处理DINOv2Vision Transformer特征提取开源项目Huggingface
DINOv2-giant是一款基于Vision Transformer架构的大规模视觉模型,采用DINOv2无监督学习方法训练。该模型能够从未标注的图像中提取强大的视觉特征,将图像分割为固定大小的块序列作为输入,通过Transformer编码器处理后输出图像的隐含表示。研究人员可利用此预训练模型作为基础,添加简单的线性层即可完成各种下游视觉任务的微调,为计算机视觉领域提供了强大的基础工具。
depth-anything-large-hf - 基于DPT和DINOv2的大规模深度估计模型
模型计算机视觉人工智能Github图像处理Depth Anything深度估计Huggingface开源项目
Depth Anything是一个基于DPT架构和DINOv2主干的深度估计模型,通过6200万张图像训练而成。该模型在相对和绝对深度估计方面均达到最先进水平,可用于零样本深度估计等任务。它提供简单的pipeline接口,支持任意尺寸输入图像,并输出高质量深度图。Depth Anything为计算机视觉领域提供了强大的深度感知能力,可应用于多个场景。
Depth-Anything-V2-Base-hf - 高效精细的单目深度估计模型 提供稳健性能
图像处理计算机视觉深度估计Huggingface模型Depth Anything V2Github开源项目神经网络模型
Depth-Anything-V2-Base-hf是一个基于transformers库的单目深度估计模型。该模型通过大规模合成和真实图像训练,相比V1版本提供更细致的细节和更强的稳健性。它比基于SD的模型效率高10倍且更轻量化,在预训练基础上展现出色的微调性能。模型采用DPT架构和DINOv2骨干网络,适用于零样本深度估计等任务,在相对和绝对深度估计方面表现优异。
llama3-llava-next-8b-hf - LLaVA-NeXT:Llama 3驱动的多模态AI模型
模型LLaVA-NeXTGithub图像处理深度学习Huggingface开源项目多模态自然语言处理
LLaVA-NeXT是一个基于Llama 3的多模态AI模型,整合了预训练语言模型和视觉编码器。通过高质量数据混合和强化语言骨干网络,该模型在图像描述、视觉问答和多模态对话等任务中表现出色。LLaVA-NeXT支持Python接口,并提供4位量化和Flash Attention 2优化,以提升性能和效率。作为开源项目,LLaVA-NeXT为研究人员和开发者提供了探索多模态AI的有力工具。
dino-vits16 - DINO训练的小型Vision Transformer模型及其应用
模型开源项目Huggingface自监督学习DINO图像处理Vision Transformer特征提取Github
dino-vits16是一个基于DINO方法训练的小型Vision Transformer模型。该模型在ImageNet-1k数据集上进行自监督预训练,能够有效学习图像特征表示。它采用16x16像素的图像块作为输入,可应用于多种视觉任务。dino-vits16展示了自监督学习在计算机视觉领域的潜力,为图像分类等下游任务奠定了基础。
Depth-Anything-V2-Small - 先进高效的开源深度估计工具
模型GithubDepth-Anything-V2开源项目Huggingface机器学习图像处理计算机视觉深度估计
Depth-Anything-V2-Small是一个开源的单目深度估计模型,基于大规模合成和真实图像数据训练。相比前代产品,该模型提供更精细的深度细节和更强的鲁棒性。它比同类基于稳定扩散的模型运行速度快10倍,且更加轻量化。模型支持高效的图像深度推断,可用于各种计算机视觉应用场景。
UNI - 病理学AI基础模型助力精准医疗诊断
图像处理Huggingface模型深度学习视觉编码器Github开源项目UNI病理学
UNI是一个基于1亿张病理图像预训练的视觉编码器,为病理学AI诊断提供了强大的基础模型。它在34项临床任务中展现出卓越性能,特别是在罕见和代表性不足的癌症类型诊断上。UNI不使用公开数据集进行预训练,有助于研究人员在避免数据污染的前提下构建和评估病理AI模型。该模型遵循CC-BY-NC-ND 4.0许可证,仅限非商业学术研究使用。
llava-onevision-qwen2-7b-ov-chat - LLaVA-OneVision多模态AI模型支持图像和视频交互
多模态图像处理Huggingface模型深度学习Github开源项目自然语言处理LLaVA-OneVision
LLaVA-OneVision是一款基于Qwen2架构的多模态AI模型,专门针对聊天场景进行优化。该模型通过多阶段训练,包括LCS-558K预训练、高质量合成数据训练和单图数据训练等,最终经过RLHF进一步提升性能。它能够与图像、多图和视频进行交互,同时保持良好的指令遵循能力,是一个versatile的视觉语言模型。
llava-onevision-qwen2-0.5b-si - 多模态AI模型实现图像、多图和视频的智能交互
模型Github图像处理LLaVA-OneVision视觉语言模型Qwen2Huggingface开源项目多模态
LLaVA-OneVision是一个基于Qwen2的多模态AI模型,能够处理图像、多图和视频输入。它具有32K tokens的上下文窗口,支持英文和中文交互。该模型在AI2D、ChartQA和DocVQA等多项任务中表现优异,为视觉语言应用提供了强大的基础。LLaVA-OneVision采用LLaVA-OneVision数据集进行训练,可轻松集成到各类视觉语言项目中。
surya_rec - surya项目专用的多语言文本识别模型
模型suryaOCR计算机视觉文本识别Github图像处理Huggingface开源项目
surya_rec是一个开源的文本识别模型,基于cc-by-nc-sa-4.0许可发布。该模型作为surya项目的一部分,专注于多语言文本的识别和提取。surya_rec采用深度学习技术,旨在高效识别和提取多语言文本内容,支持文档分析和信息提取。模型注重准确性和性能,为开发者提供强大的OCR解决方案。有兴趣的开发者可通过surya项目的GitHub仓库了解更多详情和使用方法。
xgen-mm-phi3-mini-instruct-r-v1 - Salesforce开发的大规模多模态模型 支持高分辨率图像处理
XGen-MM视觉语言模型多模态模型图像处理Huggingface模型AI研究Github开源项目
xgen-mm-phi3-mini-instruct-r-v1是Salesforce AI Research开发的大规模多模态模型。该模型在5B参数规模下实现了开源和闭源视觉语言模型中的领先性能,支持高分辨率图像处理,并具备出色的上下文学习能力。模型通过大规模训练提升了多模态AI技术水平,为图像理解和文本生成任务提供了强大支持。
Florence-2-base-ft - 多任务视觉AI模型实现图像理解与分析
模型Florence-2多任务学习视觉模型Github图像处理Huggingface开源项目自然语言处理
Florence-2-base-ft是一款多任务视觉AI模型,可处理多种视觉和视觉-语言任务。该模型通过解释简单的文本提示,执行图像描述、物体检测和分割等操作。在图像描述、视觉问答和引用表达理解等基准测试中,Florence-2-base-ft展现出优秀性能。这个拥有2.3亿参数的模型为各类视觉任务提供了统一的表示方法,展现了人工智能在视觉理解领域的最新进展。
yolos-tiny - 轻量级Vision Transformer目标检测模型
模型视觉转换器目标检测YOLOSGithub图像处理COCO数据集Huggingface开源项目
YOLOS-tiny是基于Vision Transformer的轻量级目标检测模型,在COCO 2017数据集上微调。模型采用简单架构,通过双边匹配损失训练,可预测物体类别和边界框。在COCO验证集上达到28.7 AP,与复杂框架性能相当。YOLOS-tiny为资源受限场景提供高效目标检测方案,适用于各种计算机视觉应用。
deformable-detr-DocLayNet - Deformable DETR模型实现文档布局分析 基于DocLayNet数据集
图像处理对象检测Huggingface模型DocLayNetGithub开源项目Deformable DETR文档布局分析
这是一个基于Deformable DETR架构的文档布局分析模型,在DocLayNet数据集上训练。该模型可检测和分类11种文档布局元素,在DocLayNet测试集上实现57.1 mAP。它采用transformer编码器-解码器结构,结合CNN主干网络,使用双向匹配损失训练。此模型可用于文档布局分析任务,也可集成到Aryn分区服务等应用中。
paligemma-3b-pt-224 - 基于SigLIP和Gemma的多功能视觉语言模型
模型GithubPaliGemma开源项目Huggingface图像处理自然语言处理多语言视觉语言模型
PaliGemma是一款结合SigLIP视觉模型和Gemma语言模型的视觉语言模型。该模型可处理图像和文本输入并生成文本输出,支持多语言。PaliGemma在图像字幕、视觉问答、文本阅读、物体检测等多种视觉语言任务中表现优异。模型采用Transformer架构,拥有30亿参数,经过大规模多语言数据预训练,可通过微调应用于特定任务。
Depth-Anything-V2-Large - 单目深度估计新突破:高精度细节与高效性能的完美平衡
模型计算机视觉Github神经网络图像处理深度估计Huggingface开源项目Depth Anything V2
Depth-Anything-V2-Large是一款基于大规模数据训练的单目深度估计模型。该模型通过595K合成标记图像和62M+真实未标记图像的训练,在细节精度和鲁棒性方面超越了前代版本。与基于SD的模型相比,它不仅更加高效和轻量,处理速度提升了10倍,还在预训练基础上展现出优秀的微调能力。这一模型为计算机视觉领域提供了性能卓越的深度估计解决方案。
Florence-2-large-no-flash-attn - 基于统一表示的多功能视觉人工智能模型
模型多任务学习Github视觉基础模型开源项目Florence-2Huggingface图像处理自然语言处理
Florence-2-large-no-flash-attn是一款由微软开发的视觉基础模型。它采用提示式方法处理多种视觉和视觉语言任务,包括图像描述、目标检测和分割。该模型利用54亿个注释的大规模数据集进行多任务学习,在零样本和微调场景下均表现出色。Florence-2的序列到序列架构使其在各类下游任务中展现优异性能,为统一视觉表示提供了新的可能性。
paligemma-3b-mix-448 - 基于SigLIP和Gemma的多语言视觉语言模型
视觉语言模型图像处理Huggingface模型PaliGemmaGithub多语言开源项目微调
PaliGemma是一款基于SigLIP视觉模型和Gemma语言模型的视觉语言模型,采用3B参数的Transformer架构。该模型支持多语言输入输出,可用于图像描述、视觉问答和文本识别等任务。PaliGemma在多个大规模数据集上经过预训练,并通过严格的数据过滤确保了训练数据质量。模型适用于各类视觉语言任务的微调,在多项基准测试中展现了优异性能。
segformer-b5-finetuned-ade-640-640 - SegFormer-b5模型用于ADE20k数据集的语义分割
语义分割Transformer图像处理Huggingface模型深度学习Github开源项目SegFormer
SegFormer-b5是一个针对ADE20k数据集640x640分辨率微调的语义分割模型。该模型采用层次化Transformer编码器和轻量级MLP解码头,在ADE20K等基准测试中表现优异。模型在ImageNet-1k预训练后,添加解码头并在目标数据集上微调,可应用于多种语义分割任务。
dpt-beit-base-384 - 基于BEiT主干的DPT模型实现单目深度估计
图像处理神经网络计算机视觉深度估计Huggingface模型Github开源项目DPT
DPT (Dense Prediction Transformer) 是一个基于BEiT主干的模型,专门用于单目深度估计。该模型在140万张图像上训练,可进行零样本深度估计。采用Transformer架构,具备强大的密集预测能力,能生成高质量深度图。模型可通过Python代码或pipeline API轻松使用,为计算机视觉任务提供了有力工具。
llava-onevision-qwen2-72b-ov-chat - 多模态大语言模型支持图像、多图和视频交互
模型人工智能Github图像处理LLaVA-OneVisionHuggingface开源项目多模态自然语言处理
llava-onevision-qwen2-72b-ov-chat是一个为聊天场景优化的多模态大语言模型。该模型基于llava-onevision-72b-ov构建,通过迭代DPO训练提升了聊天能力,同时保持了良好的指令遵循能力。模型支持图像、多图和视频交互,在英语和中文方面表现出色。研究显示,其采用的迭代DPO训练方法有效增强了模型的聊天表现。
llava-onevision-qwen2-0.5b-ov - 支持多模态输入的视觉语言AI模型
多模态图像处理Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-0.5b-ov是基于Qwen2语言模型开发的多模态AI模型。该模型可处理图像、多图和视频输入,支持英语和中文交互。在LLaVA-OneVision数据集上训练后,模型具备32K tokens的上下文窗口,能执行图像问答、视频理解等多种视觉任务。其在多个多模态基准测试中表现优异,展现了强大的视觉语言处理能力。
mit-b0 - 轻量级视觉Transformer用于语义分割
模型语义分割开源项目Huggingface图像处理SegFormerTransformerGithub深度学习
mit-b0是SegFormer系列中的轻量级模型,采用分层Transformer编码器架构,在ImageNet-1k数据集上预训练。这个模型专为语义分割任务设计,结合了Transformer的特征提取能力和轻量级MLP解码头。mit-b0在ADE20K等基准测试中表现出色,为研究人员提供了一个可靠的预训练基础,可在特定数据集上进行进一步微调和优化。
相关文章
IOPaint: 革新图像编辑的开源AI工具
2024年08月29日
ImaginAIry: 强大的AI图像生成工具
2024年08月30日
ImaginAIry: 强大的AI图像生成Python库
2024年08月30日
Emgu CV:强大的跨平台.NET计算机视觉库
2024年08月30日
SmartOpenCV: 增强Android端OpenCV图像预览功能的开源库
2024年08月30日
Emgu CV: 跨平台.NET包装器让OpenCV图像处理更简单
2024年08月30日
SmartOpenCV: Android端OpenCV增强库的革新之作
2024年08月30日
GFPGAN: 实用的真实世界人脸修复算法
2024年08月30日
阿里最新开源!居然能改变年龄和性别!快来感受不一样的自己
2024年08月02日