Logo

#CLIP

Deep-Daze 学习资料汇总 - 基于CLIP和SIREN的文本到图像生成工具

1 个月前
Cover of Deep-Daze 学习资料汇总 - 基于CLIP和SIREN的文本到图像生成工具

Segment-Anything-CLIP: 结合分割模型和大语言模型的强大图像理解工具

2 个月前
Cover of Segment-Anything-CLIP: 结合分割模型和大语言模型的强大图像理解工具

X-CLIP: 面向视频-文本检索的端到端多粒度对比学习

2 个月前
Cover of X-CLIP: 面向视频-文本检索的端到端多粒度对比学习

LSeg: 基于语言驱动的语义分割新模型

2 个月前
Cover of LSeg: 基于语言驱动的语义分割新模型

DIVA: 利用扩散反馈提升CLIP视觉能力的创新方法

2 个月前
Cover of DIVA: 利用扩散反馈提升CLIP视觉能力的创新方法

ComfyUI_Cutoff: 精确控制Stable Diffusion提示词的强大工具

2 个月前
Cover of ComfyUI_Cutoff: 精确控制Stable Diffusion提示词的强大工具

ComfyUI_ADV_CLIP_emb: 高级提示权重控制的革新性工具

2 个月前
Cover of ComfyUI_ADV_CLIP_emb: 高级提示权重控制的革新性工具

rclip: 革命性的AI驱动命令行照片搜索工具

2 个月前
Cover of rclip: 革命性的AI驱动命令行照片搜索工具

Long-CLIP:解锁CLIP的长文本处理能力

2 个月前
Cover of Long-CLIP:解锁CLIP的长文本处理能力

MetaCLIP: 揭秘CLIP数据的新方法

2 个月前
Cover of MetaCLIP: 揭秘CLIP数据的新方法

相关项目

Project Cover
deep-daze
Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具,可将文本转化为图像。用户可以通过自然语言描述生成图像,并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成,及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU,推荐16GB显存。
Project Cover
blended-diffusion
Blended Diffusion 是一种利用自然语言和ROI掩模进行图像局部编辑的工具。结合了CLIP预训练语言-图像模型和DDPM去噪扩散模型,实现了高效的自然图像编辑。它可以保持背景完整,并无缝融合编辑区域,减少对抗性结果。功能包括新增物体、移除/替换/改变现有物体、背景替换和图像外推。相关代码和模型已开放下载,供用户探索。
Project Cover
OpenAI-CLIP
本项目实现了CLIP模型,基于PyTorch进行开发,通过训练文本和图像数据,探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用,适合多模态学习的研究者和开发者使用。
Project Cover
similarities
该工具包提供多种文本和图像相似度计算及语义匹配算法,支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发,支持命令行操作,基于PyTorch和FastAPI等技术,可实现多语言环境下的高效向量表示及检索,开箱即用。
Project Cover
CLIP-ImageSearch-NCNN
CLIP-ImageSearch-NCNN项目在移动设备和x86平台上使用CLIP模型实现了自然语言图像检索功能。通过图像和文本特征提取,支持以图搜图、以字搜图等多种搜索方式,提供高效的图像搜索体验。项目包含适用于Android和x86平台的demo,利用ncnn进行部署,广泛适用于手机相册等图像搜索应用。
Project Cover
clip_playground
这个项目展示了CLIP模型的不同应用,包括GradCAM可视化、简单和智能的零样本检测以及验证码破解。用户可以通过Colab链接在线体验各项功能,并调整参数和检测查询以深入探索模型潜力。项目日志定期更新,包含reCAPTCHA绘图改进和检测参数调整,确保用户获得最佳应用体验。
Project Cover
fashion-clip
FashionCLIP是一个为时尚行业优化的CLIP模型,用于提升商品检索、分类和时尚分析的表现。通过超过70万对图像和文本数据进行微调,FashionCLIP在零样本场景下表现出色。更新版FashionCLIP 2.0采用更多训练数据,显著提高了FMNIST、KAGL和DEEP数据集的性能。项目提供开源代码和模型权重,可在Hugging Face上获取,并支持多种API和教程便于上手。
Project Cover
RADIO
AM-RADIO是一个将多个大型视觉基础模型蒸馏为单一模型的框架。其核心产物RADIO作为新一代视觉基础模型,在多个视觉任务中表现优异,可作为通用视觉骨干网络使用。RADIO通过蒸馏整合了CLIP、DINOv2和SAM等模型,保留了文本定位和分割对应等特性。在ImageNet零样本分类、kNN和线性探测分割等任务上,RADIO超越了教师模型,同时提升了视觉语言模型的性能。此外,RADIO支持任意分辨率和非方形图像输入,并提供了名为E-RADIO的高效变体。
Project Cover
CLIP
CLIP通过对比学习训练神经网络,结合图像和文本,实现自然语言指令预测。其在ImageNet零样本测试中的表现与ResNet50相当,无需使用原始标注数据。安装便捷,支持多种API,适用于零样本预测和线性探针评估,推动计算机视觉领域发展。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号