#CLIP
owlv2-large-patch14-ensemble - Google OWLv2模型实现零样本开放词汇目标检测
CLIP模型OWLv2计算机视觉Github零样本目标检测Huggingface开源项目自然语言处理
OWLv2是Google开发的基于CLIP的零样本目标检测模型。它使用ViT-L/14架构和掩蔽自注意力Transformer分别处理图像和文本输入。通过端到端训练,OWLv2实现了开放词汇的物体分类和定位,可根据多个文本查询执行目标检测。该模型在公开数据集上训练,为计算机视觉研究提供了新的可能性。
vit_large_patch14_clip_224.openai_ft_in12k_in1k - 视觉变压器用于图像分类和特征嵌入的高级应用
模型比较开源项目模型GithubHuggingfaceWIT-400M图像分类CLIPVision Transformer
OpenAI开发的视觉变压器(ViT)模型在WIT-400M图像文本对上通过CLIP进行预训练,并在ImageNet-12k和ImageNet-1k上微调,适用于图像分类与特征嵌入生成。模型运行在timm库中,具有高参数量与计算效率,适用于高精度图像识别,支持实时与批量处理应用。
japanese-clip-vit-b-16 - 日语CLIP模型实现跨模态文本图像语义匹配
ViT-B/16图像识别开源项目深度学习模型japanese-clipGithubCLIPHuggingface
rinna公司开发的日语CLIP模型采用ViT-B/16 Transformer架构,通过CC12M数据集的日语翻译版本训练而成。该模型实现了日语文本与图像的跨模态理解和语义匹配,提供简洁的API接口,适用于图像检索和跨模态搜索等场景。作为Apache 2.0许可的开源项目,它为日语视觉语言处理领域提供了实用的基础工具。
vit_large_patch14_clip_336.openai - 通过CLIP模型探索计算机视觉鲁棒性
数据集OpenAI开源项目模型GithubHuggingface计算机视觉偏见CLIP
OpenAI开发的CLIP模型通过ViT-L/14 (336x336)架构提高视觉任务的鲁棒性,专注于零样本图像分类,供研究人员深入探索。这个模型针对英语场景,其数据主要源自发达国家的互联网用户,目前不建议用于商用部署,但在学术界具备多学科研究的重要价值。
ViT-L-16-HTxt-Recap-CLIP - 对比图文模型在零样本图像分类中的新进展
图像分类CLIP数据集偏见HuggingfaceLLaMA-3Github开源项目对比学习模型
这个模型利用Recap-DataComp-1B数据集训练,旨在实现零样本图像分类。通过OpenCLIP库,用户能够编码和分类图像与文本。模型的数据源自网络抓取并经过重新标注,可能会包含偏见或不准确之处,请在使用时注意这些风险。更多数据集详情可以查阅数据集卡片页面。
sd-image-variations-diffusers - 基于Stable Diffusion的开源图像变体生成模型
图像变体Stable Diffusion开源项目图像生成模型人工智能HuggingfaceCLIPGithub
sd-image-variations-diffusers是一个经过微调的Stable Diffusion模型,通过CLIP图像嵌入技术实现图像变体生成。该模型集成Diffusers库,可生成高质量的图像变体,主要应用于艺术创作、教育工具和AI研究等领域。模型目前已发布V2版本,相比V1版本具有更好的图像质量和相似度表现,但在生成人脸和文字方面仍存在局限性。
CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg - 基于LAION-2B数据集的卷积神经网络达到79%零样本分类准确率
Github开源项目图像分类CLIPHuggingface神经网络机器学习ConvNext模型
CLIP ConvNeXt-XXLarge是一个在LAION-2B数据集上训练的大规模视觉语言模型,总参数量12亿,图像分辨率256x256。模型采用ConvNeXt-XXLarge图像结构和ViT-H-14规模的文本编码器,在ImageNet零样本分类上达到79%准确率。主要应用于图像分类、检索等研究任务。
plip - 基于CLIP模型的Python图像处理库 专注零样本分类研究
Github模型数据隐私开源项目CLIP图像分类Huggingface人工智能模型研究
plip是一个基于OpenAI CLIP模型的Python图像处理库,专注于零样本图像分类研究。该工具为AI研究人员提供了探索模型鲁棒性和泛化性的平台。目前仅支持英语环境,主要用于研究目的。使用时需注意在特定分类体系下进行充分的领域测试,不建议直接部署到生产环境。
kandinsky-2-2-decoder - 基于CLIP和扩散技术的开源图像生成模型
扩散模型开源项目Kandinsky 2.2模型GithubHuggingface图像生成文本到图像CLIP
Kandinsky 2.2采用CLIP和潜在扩散技术架构,结合Dall-E 2与Latent Diffusion的技术优势。模型具备文本生成图像、图像转换及图像插值等功能,支持生成1024x1024分辨率图像。在COCO_30k数据集评测中,模型FID评分达8.21。该项目完全开源,为图像生成领域提供了新的技术方案。
clip - Habana Gaudi HPU优化的视觉语言模型配置与训练方案
模型训练Optimum Habana开源项目人工智能模型GithubHuggingfaceHugging FaceCLIP
Optimum Habana为Habana Gaudi处理器(HPU)提供了CLIP模型的优化配置,实现与Hugging Face库的集成。支持单机和多HPU环境下的模型操作,包含自定义AdamW、梯度裁剪和混合精度训练等优化。项目提供COCO数据集微调示例,展示了如何充分利用HPU性能进行视觉语言模型训练。
DFN2B-CLIP-ViT-B-16 - 自动化数据过滤技术优化对比学习模型
HuggingfaceCLIPZero-Shot开源项目模型GithubOpenCLIP数据过滤对比学习
DFN2B-CLIP-ViT-B-16通过Data Filtering Networks从12.8B对未筛选的数据中选出优质样本,提升CLIP模型训练效果。该模型在ImageNet 1k、CIFAR-10等数据集上表现优异,平均精度为0.609232,支持OpenCLIP,增强了图像与文本匹配能力。特别适合需要提升零样本图像分类准确性的用户。
CLIP-ViT-B-32-DataComp.XL-s13B-b90K - 基于DataComp-1B训练的CLIP图像分类模型
图像分类Huggingface机器学习CLIP人工智能开源项目模型GithubDataComp
CLIP ViT-B/32是一个使用DataComp-1B数据集训练的图像分类模型,在ImageNet-1k测试中达到72.7%零样本分类准确率。模型支持图像分类、图像文本检索等功能,主要面向多模态机器学习研究使用。
CLIP-ViT-B-32-256x256-DataComp-s34B-b86K - 基于DataComp训练的CLIP多模态视觉语言模型
开源项目模型GithubViT-B-32机器学习HuggingfaceCLIPDataComp-1B图像分类
CLIP ViT-B/32是一个在DataComp-1B数据集上训练的视觉语言模型,通过OpenCLIP框架实现。模型在ImageNet-1k分类任务中实现72.7%零样本准确率,支持图像分类、跨模态检索等研究任务。该开源项目为计算机视觉研究提供了重要的实验基础
CLIP-convnext_base_w-laion_aesthetic-s13B-b82K - LAION-5B训练的ConvNeXt-Base CLIP模型
数据集ConvNext开源项目模型Github机器学习HuggingfaceCLIP图像分类
ConvNeXt-Base架构的CLIP模型在LAION-5B子集上完成训练,支持256x256和320x320两种图像分辨率。在ImageNet零样本分类评测中取得70.8%-71.7%的top-1准确率,样本效率超过同规模ViT-B/16模型。该模型主要用于研究领域,可执行零样本图像分类和图文检索等任务。
CLIP-ViT-B-16-DataComp.XL-s13B-b90K - 多模态模型CLIP ViT-B/16的零样本图像分类解析
训练数据数据集开源项目图像生成模型Huggingface零样本图像分类CLIPGithub
CLIP ViT-B/16模采用DataComp-1B数据集训练,并结合OpenCLIP工具,旨在促进研究者对零样本图像分类的理解。该模型在ImageNet-1k数据集上实现了73.5%的零样本准确率,展示了其在多领域研究中的潜力和挑战。由于数据集仍未完全筛选,建议仅限于学术研究使用。
相关文章
Deep Daze: 用自然语言生成图像的革命性工具
3 个月前
Blended Diffusion: 基于文本引导的自然图像局部编辑新方法
3 个月前
CLIP-ImageSearch-NCNN: 基于自然语言的图片搜索神器
3 个月前
CLIP Playground: 探索OpenAI强大的零样本学习能力
3 个月前
开放词汇语义分割的最新进展与未来方向
3 个月前
AM-RADIO: 革命性的多领域图像生成技术
3 个月前
深入解析 clip-video-encode: 高效视频帧 CLIP 嵌入计算工具
3 个月前
MetaCLIP: 揭秘CLIP数据的新方法
3 个月前
DIVA: 利用扩散反馈提升CLIP视觉能力的创新方法
3 个月前