#图像编码器

SkyPaint-AI-Diffusion - 支持中文和英文文本输入的现代艺术图像生成工具
Github开源项目扩散模型文本生成图像SkyPaint图像编码器SkyCLIP
SkyPaint由奇点智源开发,支持中文和英文文本输入,生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化,支持多种提示词输入。用户可以在线体验SkyPaint,模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练,显著降低算力需求,提升模型性能。项目持续优化,旨在为开源社区提供便捷的复现和微调解决方案,适用于多语言图文检索和生成任务。
clifs - 自然语言视频帧内容搜索系统
Github开源项目图像编码器CLIFSOpenAI's CLIPdjango视频内容搜索
CLIFS利用OpenAI的CLIP模型,通过自然语言在视频中搜索匹配的帧内容。项目通过提取视频帧特征并与文本查询特征进行相似性匹配,返回结果。Django构建的搜索引擎界面支持自定义视频文件的索引和搜索。
OpenAI-CLIP - 从零开始实现CLIP模型:探索文本与图像的多模态关联
Github开源项目OpenAI多模态CLIP图像编码器文本编码器
本项目实现了CLIP模型,基于PyTorch进行开发,通过训练文本和图像数据,探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用,适合多模态学习的研究者和开发者使用。
chinese-clip-vit-large-patch14 - 结合ViT-L/14和RoBERTa-wwm-base的中文图文对比模型
Github开源项目模型HuggingfaceChinese-CLIP零样本分类图像编码器文本编码器图文相似度
这一模型采用ViT-L/14和RoBERTa-wwm-base进行编码,在大规模中文图文数据集上训练,支持高效的图文嵌入和相似度计算。项目提供直观的API和多项任务评估,展现了在零样本图像分类和图文检索上的杰出表现。
owlv2-base-patch16 - 零样本文本对象检测,提高计算机视觉的识别效果
Github开源项目模型CLIPHuggingface图像编码器OWLv2零样本目标检测开放词汇物体检测
OWLv2是一种多模态模型,通过结合CLIP的骨干和ViT样的Transformer,实现零样本文本对象检测。通过去除视觉模型的代币池层,并加入轻量级的分类和框头部,提升开放词汇分类的效果。使用公开的图像-文本数据集训练和微调,旨在优化图像与文本的匹配度。该模型目标帮助研究人员探索计算机视觉模型的鲁棒性和泛化性能,特别适用于未标注对象的识别领域,主要受众为AI研究人员
pix2struct-base - Pix2Struct预训练模型,实现多语言视觉-文本任务
Github开源项目预训练模型Huggingface图像编码器Pix2Struct视觉语言理解文本解码器
Pix2Struct是一种预训练的图像-文本模型,专用于多种任务,如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练,在文档、插图、用户界面和自然图像领域实现出色性能,灵活整合语言和视觉输入。
chinese-clip-vit-huge-patch14 - 基于ViT-H/14和RoBERTa的中文图文对比学习模型
Github开源项目模型HuggingfaceChinese-CLIP图像编码器文本编码器中文数据集检索
chinese-clip-vit-huge-patch14是一个基于ViT-H/14和RoBERTa-wwm-large的中文CLIP模型,在大规模中文图文数据上训练,表现卓越。支持在MUGE、Flickr30K-CN和COCO-CN等数据集中的图文检索和零样本分类。提供API实现简便的图文特征提取及相似度计算,详情请参见GitHub仓库。
pix2struct-docvqa-base - 基于pix2struct的跨领域视觉问答图像解码模型
Github开源项目预训练模型Hugging Face模型Huggingface视觉问答图像编码器Pix2Struct
Pix2Struct是一个预训练的图像到文本解码模型,旨在提升文档视觉问答的效率,通过解析网页截图实现多领域视觉语言理解的增强。
openlrm-mix-base-1.1 - 从图像生成3D模型的开源解决方案
Github开源项目模型Huggingface训练数据图像编码器OpenLRM开源实现模型卡
OpenLRM V1.1结合Objaverse和MVImgNet数据集提供从图像生成3D模型的开源解决方案。该项目利用DINOv2作为图像编码器,并使用多层次三平面解码器。与原始论文不同,该模型未采用延迟反向传播技术,并引入随机背景色进行训练。本项目依据Creative Commons非商业许可协议发布,适用于研究用途,商业使用被禁止。用户需注意训练数据中可能存在的偏见,并确保其用法符合法律法规。