#CLIP

Deep Daze: 用自然语言生成图像的革命性工具

3 个月前

Deep Daze CLIP Siren 文本生成图像 AI绘图 Github 开源项目

3 个月前

Blended Diffusion: 基于文本引导的自然图像局部编辑新方法

3 个月前

Blended Diffusion 图像编辑自然语言描述 CLIP DDPM Github 开源项目

3 个月前

CLIP-ImageSearch-NCNN: 基于自然语言的图片搜索神器

3 个月前

CLIP ncnn 图片搜索自然语言检索模型 Github 开源项目

3 个月前

CLIP Playground: 探索OpenAI强大的零样本学习能力

3 个月前

CLIP GradCAM Zero-shot Detection Captcha Solver Colab Github 开源项目

3 个月前

开放词汇语义分割的最新进展与未来方向

3 个月前

开放词汇语义分割计算机视觉深度学习 CLIP Github 开源项目

3 个月前

AM-RADIO: 革命性的多领域图像生成技术

3 个月前

RADIO 视觉基础模型 CLIP DINOv2 SAM Github 开源项目

3 个月前

深入解析 clip-video-encode: 高效视频帧 CLIP 嵌入计算工具

3 个月前

CLIP 视频编码嵌入计算 Python库开源项目 Github

3 个月前

MetaCLIP: 揭秘CLIP数据的新方法

3 个月前

MetaCLIP CLIP 图像文本对预训练模型数据清洗 Github 开源项目

3 个月前

DIVA: 利用扩散反馈提升CLIP视觉能力的创新方法

3 个月前

DIVA CLIP AI视觉扩散模型迁移学习 Github 开源项目

3 个月前

Long-CLIP：解锁CLIP的长文本处理能力

3 个月前

Long-CLIP CLIP 文本-图像检索零样本分类 AI模型 Github 开源项目

3 个月前

相关项目

deep-daze

Deep Daze是一款基于OpenAI的CLIP和Siren技术的命令行工具，可将文本转化为图像。用户可以通过自然语言描述生成图像，并调整图层数量、图像分辨率和学习率等参数以优化效果。工具还支持结合图像和文本进行生成，及使用初始图像进行生成器网络训练。Deep Daze需要Nvidia或AMD GPU，推荐16GB显存。

blended-diffusion

Blended Diffusion 是一种利用自然语言和ROI掩模进行图像局部编辑的工具。结合了CLIP预训练语言-图像模型和DDPM去噪扩散模型，实现了高效的自然图像编辑。它可以保持背景完整，并无缝融合编辑区域，减少对抗性结果。功能包括新增物体、移除/替换/改变现有物体、背景替换和图像外推。相关代码和模型已开放下载，供用户探索。

OpenAI-CLIP

本项目实现了CLIP模型，基于PyTorch进行开发，通过训练文本和图像数据，探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用，适合多模态学习的研究者和开发者使用。

similarities

该工具包提供多种文本和图像相似度计算及语义匹配算法，支持高效处理亿级数据。主要功能包含文本相似度计算、文本搜索、图文匹配、图像搜索等多种算法。项目采用Python3开发，支持命令行操作，基于PyTorch和FastAPI等技术，可实现多语言环境下的高效向量表示及检索，开箱即用。

CLIP-ImageSearch-NCNN

CLIP-ImageSearch-NCNN项目在移动设备和x86平台上使用CLIP模型实现了自然语言图像检索功能。通过图像和文本特征提取，支持以图搜图、以字搜图等多种搜索方式，提供高效的图像搜索体验。项目包含适用于Android和x86平台的demo，利用ncnn进行部署，广泛适用于手机相册等图像搜索应用。

clip_playground

这个项目展示了CLIP模型的不同应用，包括GradCAM可视化、简单和智能的零样本检测以及验证码破解。用户可以通过Colab链接在线体验各项功能，并调整参数和检测查询以深入探索模型潜力。项目日志定期更新，包含reCAPTCHA绘图改进和检测参数调整，确保用户获得最佳应用体验。

fashion-clip

FashionCLIP是一个为时尚行业优化的CLIP模型，用于提升商品检索、分类和时尚分析的表现。通过超过70万对图像和文本数据进行微调，FashionCLIP在零样本场景下表现出色。更新版FashionCLIP 2.0采用更多训练数据，显著提高了FMNIST、KAGL和DEEP数据集的性能。项目提供开源代码和模型权重，可在Hugging Face上获取，并支持多种API和教程便于上手。

RADIO

AM-RADIO是一个将多个大型视觉基础模型蒸馏为单一模型的框架。其核心产物RADIO作为新一代视觉基础模型,在多个视觉任务中表现优异,可作为通用视觉骨干网络使用。RADIO通过蒸馏整合了CLIP、DINOv2和SAM等模型,保留了文本定位和分割对应等特性。在ImageNet零样本分类、kNN和线性探测分割等任务上,RADIO超越了教师模型,同时提升了视觉语言模型的性能。此外,RADIO支持任意分辨率和非方形图像输入,并提供了名为E-RADIO的高效变体。

CLIP

CLIP通过对比学习训练神经网络，结合图像和文本，实现自然语言指令预测。其在ImageNet零样本测试中的表现与ResNet50相当，无需使用原始标注数据。安装便捷，支持多种API，适用于零样本预测和线性探针评估，推动计算机视觉领域发展。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com