#CLIP

CLIP - CLIP是一种在各种（图像、文本）对上训练的神经网络

Github开源项目PyTorch自然语言处理模型训练图像识别CLIP

CLIP通过对比学习训练神经网络，结合图像和文本，实现自然语言指令预测。其在ImageNet零样本测试中的表现与ResNet50相当，无需使用原始标注数据。安装便捷，支持多种API，适用于零样本预测和线性探针评估，推动计算机视觉领域发展。

deep-daze - 基于CLIP和Siren的文本到图像生成命令行工具

Github开源项目AI绘图CLIPDeep DazeSiren文本生成图像

Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具，可将文本转化为图像。用户可以通过自然语言描述生成图像，并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成，及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU，推荐16GB显存。

blended-diffusion - 使用自然语言进行图像局部编辑的工具

Github开源项目图像编辑CLIPBlended Diffusion自然语言描述DDPM

Blended Diffusion 是一种利用自然语言和ROI掩模进行图像局部编辑的工具。结合了CLIP预训练语言-图像模型和DDPM去噪扩散模型，实现了高效的自然图像编辑。它可以保持背景完整，并无缝融合编辑区域，减少对抗性结果。功能包括新增物体、移除/替换/改变现有物体、背景替换和图像外推。相关代码和模型已开放下载，供用户探索。

OpenAI-CLIP - 从零开始实现CLIP模型：探索文本与图像的多模态关联

Github开源项目OpenAI多模态CLIP图像编码器文本编码器

本项目实现了CLIP模型，基于PyTorch进行开发，通过训练文本和图像数据，探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用，适合多模态学习的研究者和开发者使用。

similarities - 文本和图像相似度计算与语义搜索的高效工具

Github开源项目语义搜索CLIP文本相似度similarities图像相似度

该工具包提供多种文本和图像相似度计算及语义匹配算法，支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发，支持命令行操作，基于PyTorch和FastAPI等技术，可实现多语言环境下的高效向量表示及检索，开箱即用。

CLIP-ImageSearch-NCNN - 利用CLIP快速进行手机相册中的自然语言图像搜索

Github开源项目模型CLIPncnn图片搜索自然语言检索

CLIP-ImageSearch-NCNN项目在移动设备和x86平台上使用CLIP模型实现了自然语言图像检索功能。通过图像和文本特征提取，支持以图搜图、以字搜图等多种搜索方式，提供高效的图像搜索体验。项目包含适用于Android和x86平台的demo，利用ncnn进行部署，广泛适用于手机相册等图像搜索应用。

clip_playground - 探索CLIP模型的多种应用包括GradCAM可视化、零样本检测和验证码破解

Github开源项目CLIPColabGradCAMZero-shot DetectionCaptcha Solver

这个项目展示了CLIP模型的不同应用，包括GradCAM可视化、简单和智能的零样本检测以及验证码破解。用户可以通过Colab链接在线体验各项功能，并调整参数和检测查询以深入探索模型潜力。项目日志定期更新，包含reCAPTCHA绘图改进和检测参数调整，确保用户获得最佳应用体验。

fashion-clip - 专为时尚领域优化的对比语言视觉学习模型

Github开源项目Hugging Face模型CLIPFashionCLIP时尚行业

FashionCLIP是一个为时尚行业优化的CLIP模型，用于提升商品检索、分类和时尚分析的表现。通过超过70万对图像和文本数据进行微调，FashionCLIP在零样本场景下表现出色。更新版FashionCLIP 2.0采用更多训练数据，显著提高了FMNIST、KAGL和DEEP数据集的性能。项目提供开源代码和模型权重，可在Hugging Face上获取，并支持多种API和教程便于上手。

RADIO - 通过多模型融合提升性能的通用视觉基础模型

Github开源项目DINOv2CLIPSAM视觉基础模型RADIO

AM-RADIO是一个将多个大型视觉基础模型蒸馏为单一模型的框架。其核心产物RADIO作为新一代视觉基础模型,在多个视觉任务中表现优异,可作为通用视觉骨干网络使用。RADIO通过蒸馏整合了CLIP、DINOv2和SAM等模型,保留了文本定位和分割对应等特性。在ImageNet零样本分类、kNN和线性探测分割等任务上,RADIO超越了教师模型,同时提升了视觉语言模型的性能。此外,RADIO支持任意分辨率和非方形图像输入,并提供了名为E-RADIO的高效变体。

EVA - 推进大规模视觉表示学习的前沿

Github开源项目多模态学习CLIP自监督学习EVA视觉表示

EVA是北京智源人工智能研究院开发的视觉表示学习模型系列。它包括多个子项目，如EVA-01和EVA-CLIP，致力于探索大规模掩码视觉表示学习的极限和改进CLIP训练技术。这些模型在主流平台上提供，为计算机视觉研究提供了有力支持。EVA项目涵盖基础模型、自监督学习和多模态学习等前沿领域。

Awesome-Open-Vocabulary-Semantic-Segmentation - 开放词汇语义分割研究成果汇总

Github开源项目深度学习计算机视觉CLIP语义分割开放词汇

这是一个汇总开放词汇语义分割领域研究成果的项目。内容涵盖全监督、弱监督和无需训练等多种方法，同时收录零样本语义分割、指代图像分割和开放词汇目标检测等相关任务的论文。项目旨在为研究者提供该领域的最新进展概览。

clip-video-encode - 视频帧CLIP嵌入向量计算工具

Github开源项目Python库CLIP视频编码嵌入计算

clip-video-encode是一个Python工具，用于计算视频帧的CLIP嵌入向量。它可处理本地MP4文件、YouTube链接或包含多个视频源的文本文件。工具提供帧采样、多进程处理和自定义CLIP模型等配置选项。clip-video-encode支持大规模数据集处理，曾用于压缩Kinetics700和WebVid等大型视频数据集。这个工具为视频分析和机器学习任务提供了预处理解决方案。

DIVA - 扩散模型辅助CLIP增强视觉理解能力

Github开源项目扩散模型CLIP迁移学习AI视觉DIVA

DIVA是一种创新方法,利用扩散模型作为视觉助手优化CLIP表示。通过文本到图像扩散模型的生成反馈,DIVA无需配对文本数据即可提升CLIP视觉能力。在MMVP-VLM细粒度视觉评估基准上,DIVA显著提升了CLIP性能,同时保持了其在29个图像分类和检索基准上的强大零样本能力。这为增强视觉语言模型的视觉理解开辟了新途径。

Long-CLIP - CLIP模型长文本处理能力升级显著提升图像检索效果

Github开源项目AI模型CLIP零样本分类Long-CLIP文本-图像检索

Long-CLIP项目将CLIP模型的最大输入长度从77扩展到248，大幅提升了长文本图像检索性能。在长标题文本-图像检索任务中，R@5指标提高20%；传统文本-图像检索提升6%。这一改进可直接应用于需要长文本处理能力的各类任务，为图像检索和生成领域带来显著进展。

MetaCLIP - CLIP模型数据处理优化工具

Github开源项目预训练模型数据清洗CLIP图像文本对MetaCLIP

MetaCLIP是一个改进CLIP模型数据处理的开源项目。它提出了一种新的数据筛选算法,无需依赖现有模型即可从头整理数据。该项目强调数据质量,提供了可扩展到CommonCrawl全数据集的方法。MetaCLIP公开训练数据分布,提高了透明度,并为CLIP模型提供标准化的实验设置,便于控制实验和公平比较。

ComfyUI_ADV_CLIP_emb - ComfyUI高级CLIP文本编码提升提示词权重控制

Github开源项目SDXLComfyUICLIP提示词权重文本编码

ComfyUI_ADV_CLIP_emb项目引入高级CLIP文本编码节点，实现精细的提示词权重控制。该项目支持多种标记归一化和权重解释方法，如mean、length、comfy和A1111等。此外，项目还提供SDXL支持，包括专门的SDXL编码节点和参数添加节点。这些功能有助于精确调整AI生成图像的细节，增强创作灵活性。

lang-seg - 语言驱动的零样本语义图像分割模型

Github开源项目计算机视觉CLIP语义分割零样本学习LSeg

LSeg是一种语言驱动的语义图像分割模型，结合文本编码器和Transformer图像编码器。它能将描述性标签与图像像素对齐，实现高效零样本分割。LSeg在多个数据集上表现出色，无需额外训练即可泛化到新类别。该模型在固定标签集上可与传统算法媲美，为语义分割任务提供了灵活有力的解决方案。

rclip - AI驱动的命令行图像搜索工具

Github开源项目OpenAI命令行工具CLIPrclipAI图像搜索

rclip是一款开源的命令行图像搜索工具，采用OpenAI的CLIP神经网络技术。该工具支持文本和图像查询，可进行相似图像搜索和多条件组合查询。rclip具有快速处理大量图片的能力，提供预览功能，并支持多种操作系统。这个创新工具为图像管理和搜索提供了新的解决方案，适合需要高效图像检索的专业人士和摄影爱好者。

x-clip - 灵活实现的CLIP视觉语言预训练模型

Github开源项目深度学习多模态CLIP对比学习视觉语言模型

x-clip是一个简洁而全面的CLIP实现,整合了多项前沿研究成果。该项目支持灵活的模型配置,包括自定义文本和图像编码器、多视图对比学习和视觉自监督学习等功能。通过易用的API,研究人员可以快速实验各种CLIP变体和改进方案。x-clip适用于图像检索、跨模态理解等多种视觉语言任务。

Segment-Anything-CLIP - 整合Segment-Anything与CLIP的图像分析框架

人工智能Github开源项目计算机视觉图像分割CLIPsegment-anything

项目通过结合Segment-Anything的分割能力和CLIP的识别功能，构建了一个高效的图像分析框架。系统可自动生成多个分割掩码，并对每个掩码区域进行分类。这种创新方法不仅提高了图像分析的精度，还为计算机视觉领域的研究和应用开辟了新途径。

ComfyUI_Cutoff - ComfyUI精确控制提示词影响范围的插件

Github开源项目AI绘图ComfyUICLIPCutoff提示词处理

ComfyUI_Cutoff插件通过四个新节点实现提示词的精确控制。它允许用户定义影响区域、设置目标词和调整权重，从而限制特定属性对提示词子集的影响。这种方法特别适用于处理'蓝色头发，黄色眼睛'等复杂提示词，确保属性准确应用到相应对象。通过提供更细致的提示词调整能力，该插件有助于生成更符合预期的图像。

owlv2-base-patch16-finetuned - 介绍OWLv2模型在零样本物体检测中的应用与发展

Github开源项目计算机视觉模型对象检测CLIPHuggingfaceOWLv2零样本检测

OWLv2模型是用于零样本物体检测的一个创新模型，使用CLIP作为多模态基础，同时采用ViT型Transformer以提取视觉特征，并通过因果语言模型获取文本特征。此模型的最大特点是其开放词汇分类功能，通过将固定分类层权重替换为文本模型中的类别名称嵌入实现。在常见检测数据集上，CLIP从头训练并微调，以学习精确的对象检测方法。此工具为AI研究人员提供了在计算机视觉领域探索鲁棒性、泛化和其他能力的机会。

owlv2-base-patch16 - 零样本文本对象检测，提高计算机视觉的识别效果

Github开源项目模型CLIPHuggingface图像编码器OWLv2零样本目标检测开放词汇物体检测

OWLv2是一种多模态模型，通过结合CLIP的骨干和ViT样的Transformer，实现零样本文本对象检测。通过去除视觉模型的代币池层，并加入轻量级的分类和框头部，提升开放词汇分类的效果。使用公开的图像-文本数据集训练和微调，旨在优化图像与文本的匹配度。该模型目标帮助研究人员探索计算机视觉模型的鲁棒性和泛化性能，特别适用于未标注对象的识别领域，主要受众为AI研究人员

owlv2-large-patch14 - 开源零样本对象检测模型，支持多文本查询

Github开源项目目标检测模型图像识别AI研究CLIPHuggingfaceOWLv2

OWLv2模型是一种零样文本感知对象检测模型，使用CLIP作为多模态骨干，通过结合视觉和文本特征实现开词汇检测。模型去除了视觉模型的最终token池化层，并附加分类和框头，能够处理多文本查询，扩展了图像识别的应用潜力。研究者通过重新训练和微调CLIP，提高了其在公开检测数据集上的性能，有助于探讨计算机视觉模型的鲁棒性。

vit_large_patch14_clip_224.openai - 探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力

Github开源项目计算机视觉模型CLIPHuggingface零样本学习公平性偏见

OpenAI开发的CLIP模型通过对比损失训练大量的图像与文本对展示了其在计算机视觉任务中实现零样本分类的能力。这一模型尤其适合AI研究人员用以深入理解计算机视觉模型的鲁棒性及泛化能力，同时关注于它的潜在局限与偏见。尽管在细粒度分类和对象计数任务中存在不足，CLIP提供了对于模型在不同任务表现及相关风险的深入认知。需要注意的是，CLIP模型并不适用于商业用途，且其数据训练主要基于英语环境。

clip-japanese-base - 日语CLIP模型，支持图像和文本的零样本分类与检索

Github开源项目BERT模型CLIP图像分类Huggingface文本检索视觉任务

该日语CLIP模型由LY Corporation开发，通过大约10亿对图文数据进行训练，适用于图像和文本的零样本分类与检索。该模型采用Eva02-B作为图像编码器，并使用12层BERT作为文本编码器。模型在图像分类中的准确率达到0.89，检索召回率为0.30。在评估中，使用了STAIR Captions和ImageNet-1K等数据集，表现优秀。模型已开源，遵循Apache 2.0协议。

CLIP-convnext_base_w-laion2B-s13B-b82K - ConvNeXt CLIP模型在ImageNet零样本分类中达到70.8%以上准确率

Github开源项目模型CLIPHuggingfaceOpenCLIP零样本图像分类ConvNeXtLAION-5B

这是一系列基于LAION-5B数据集训练的CLIP ConvNeXt-Base模型。经过13B样本训练后，模型在ImageNet零样本分类中实现了70.8%以上的Top-1准确率，显示出比ViT-B/16更高的样本效率。模型使用timm的ConvNeXt-Base作为图像塔，并探索了增强图像增强和正则化的效果。作为首个在CLIP ViT-B/16和RN50x4规模下训练的ConvNeXt CLIP模型，它为零样本图像分类研究提供了新的选择。

clip-rsicd-v2 - 专为遥感图像优化的零样本分类和检索模型

Github开源项目Transformer模型CLIPHuggingface零样本分类图像检索遥感图像

clip-rsicd-v2是一个基于CLIP的微调模型，专注于提升遥感图像的零样本分类和检索能力。该模型采用ViT-B/32架构和掩码自注意力Transformer分别作为图像和文本编码器。通过在RSICD、UCM和Sydney等遥感数据集上训练，clip-rsicd-v2在多项检索任务中显著超越原始CLIP模型。研究人员可利用此模型深入探究计算机视觉模型的鲁棒性和泛化能力。

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup - CLIP ConvNeXt-XXLarge模型在零样本图像分类上的卓越性能

Github开源项目深度学习计算机视觉模型CLIPHuggingface零样本图像分类ConvNeXt

CLIP ConvNeXt-XXLarge是基于LAION-2B数据集训练的大规模视觉-语言模型。它在ImageNet零样本分类任务中实现79.4%的准确率,成为首个非ViT架构突破79%的CLIP模型。该模型结合847M参数的ConvNeXt-XXLarge图像塔和ViT-H-14规模的文本塔,在计算效率和性能间达到平衡,为视觉-语言模型研究开辟新方向。

AltCLIP - AltCLIP提升中英文视觉语言理解的双语模型

Github开源项目Stable Diffusion模型CLIPHuggingface双语模型文本图像表示AltCLIP

AltCLIP是一个双语CLIP模型，通过平行知识蒸馏和双语对比学习提升中英文视觉语言理解能力。在文本-图像检索任务中表现优异，为跨语言视觉应用提供了新可能。该模型支持AltDiffusion，可用于文本生成图像等应用。项目已开源代码和权重，并提供训练和使用说明。

TinyCLIP-ViT-8M-16-Text-3M-YFCC15M - 高效压缩CLIP模型的跨模态蒸馏方法

Github开源项目模型CLIP图像分类Huggingface视觉语言预训练跨模态蒸馏TinyCLIP

TinyCLIP是一种创新的跨模态蒸馏方法，专门用于压缩大规模语言-图像预训练模型。该方法通过亲和力模仿和权重继承两项核心技术，有效利用大规模模型和预训练数据的优势。TinyCLIP在保持comparable零样本性能的同时，显著减少了模型参数，实现了速度和精度的最佳平衡。这一技术为高效部署CLIP模型提供了实用解决方案，在计算资源受限的场景下尤其有价值。

CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k - CLIP架构多语言视觉语言模型实现高效零样本图像分类与检索

Github开源项目模型CLIP图像分类Huggingface多语言模型零样本学习LAION-5B

这是一个基于CLIP架构的多语言视觉语言模型,在LAION-5B数据集上训练。模型结合了冻结的ViT-H/14视觉结构和XLM-RoBERTa大型文本模型,在多语言零样本图像分类和检索任务中表现优异。适用于零样本图像分类、图文检索等应用,也支持下游任务微调。该模型在英语及其他语言中均展现出强大性能,为跨语言视觉AI应用提供了有力支持。

jina-clip-v1 - 集成文本图像检索与文本相似度分析的多模态嵌入模型

Github开源项目模型CLIPHuggingfaceJina AI文本检索图像检索多模态嵌入

jina-clip-v1是Jina AI开发的英语多模态嵌入模型，支持高效文本-图像和文本-文本检索。它结合了传统文本嵌入和跨模态模型的优势，适用于多模态检索增强生成应用。该模型在Flickr和MSCOCO跨模态检索任务中表现出色，文本相似度评估能力也与专业文本嵌入模型相当。

DFN2B-CLIP-ViT-L-14 - 基于CLIP架构的大规模数据集训练图像识别模型

Github开源项目机器学习计算机视觉模型CLIP图像分类Huggingface数据过滤网络

DFN2B-CLIP-ViT-L-14是一个基于CLIP架构的图像识别模型，采用数据过滤网络从128亿图像-文本对中筛选20亿高质量样本进行训练。该模型在多个基准测试中平均准确率达66.86%，可用于零样本图像分类等任务。模型提供OpenCLIP接口，便于开发者使用。DFN2B-CLIP-ViT-L-14体现了大规模数据集和先进算法在计算机视觉领域的应用，为图像理解提供有力支持。

CLIP-ViT-L-14-laion2B-s32B-b82K - CLIP-ViT-L-14模型实现高效零样本图像分类和检索

Github开源项目模型CLIP图像分类Huggingface零样本学习视觉语言模型LAION-2B

CLIP-ViT-L-14-laion2B-s32B-b82K模型基于LAION-2B英语数据集训练，在ImageNet-1k上实现75.3%的零样本top-1准确率。它支持零样本图像分类和图文检索等任务，是研究零样本图像分类的重要工具。该模型在JUWELS Booster超级计算机上完成训练，为计算机视觉研究提供了新的可能性。

owlv2-large-patch14-ensemble - Google OWLv2模型实现零样本开放词汇目标检测

Github开源项目自然语言处理计算机视觉模型CLIPHuggingfaceOWLv2零样本目标检测

OWLv2是Google开发的基于CLIP的零样本目标检测模型。它使用ViT-L/14架构和掩蔽自注意力Transformer分别处理图像和文本输入。通过端到端训练，OWLv2实现了开放词汇的物体分类和定位，可根据多个文本查询执行目标检测。该模型在公开数据集上训练，为计算机视觉研究提供了新的可能性。

相关文章

Article Cover

Deep Daze: 用自然语言生成图像的革命性工具

Article Cover

Blended Diffusion: 基于文本引导的自然图像局部编辑新方法

Article Cover

CLIP-ImageSearch-NCNN: 基于自然语言的图片搜索神器

Article Cover

CLIP Playground: 探索OpenAI强大的零样本学习能力

Article Cover

开放词汇语义分割的最新进展与未来方向

Article Cover

AM-RADIO: 革命性的多领域图像生成技术

Article Cover

深入解析 clip-video-encode: 高效视频帧 CLIP 嵌入计算工具

Article Cover

MetaCLIP: 揭秘CLIP数据的新方法

Article Cover

DIVA: 利用扩散反馈提升CLIP视觉能力的创新方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号