#图像编码器

SkyPaint-AI-Diffusion - 支持中文和英文文本输入的现代艺术图像生成工具
SkyPaint文本生成图像图像编码器扩散模型SkyCLIPGithub开源项目
SkyPaint由奇点智源开发,支持中文和英文文本输入,生成现代艺术风格的高质量图像。基于OpenAI-CLIP优化,支持多种提示词输入。用户可以在线体验SkyPaint,模型兼容stable_diffusion_1.x及相关微调版本。SkyCLIP通过多语种BERT进行训练,显著降低算力需求,提升模型性能。项目持续优化,旨在为开源社区提供便捷的复现和微调解决方案,适用于多语言图文检索和生成任务。
clifs - 自然语言视频帧内容搜索系统
CLIFSOpenAI's CLIPdjango视频内容搜索图像编码器Github开源项目
CLIFS利用OpenAI的CLIP模型,通过自然语言在视频中搜索匹配的帧内容。项目通过提取视频帧特征并与文本查询特征进行相似性匹配,返回结果。Django构建的搜索引擎界面支持自定义视频文件的索引和搜索。
OpenAI-CLIP - 从零开始实现CLIP模型:探索文本与图像的多模态关联
CLIP多模态图像编码器文本编码器OpenAIGithub开源项目
本项目实现了CLIP模型,基于PyTorch进行开发,通过训练文本和图像数据,探索其相互关系。详细的代码指南和实用工具展示了模型在自然语言监督任务中的表现和实际应用,适合多模态学习的研究者和开发者使用。
chinese-clip-vit-large-patch14 - 结合ViT-L/14和RoBERTa-wwm-base的中文图文对比模型
Chinese-CLIP图文相似度开源项目模型GithubHuggingface图像编码器零样本分类文本编码器
这一模型采用ViT-L/14和RoBERTa-wwm-base进行编码,在大规模中文图文数据集上训练,支持高效的图文嵌入和相似度计算。项目提供直观的API和多项任务评估,展现了在零样本图像分类和图文检索上的杰出表现。
owlv2-base-patch16 - 零样本文本对象检测,提高计算机视觉的识别效果
CLIP开放词汇物体检测图像编码器HuggingfaceGithub开源项目模型零样本目标检测OWLv2
OWLv2是一种多模态模型,通过结合CLIP的骨干和ViT样的Transformer,实现零样本文本对象检测。通过去除视觉模型的代币池层,并加入轻量级的分类和框头部,提升开放词汇分类的效果。使用公开的图像-文本数据集训练和微调,旨在优化图像与文本的匹配度。该模型目标帮助研究人员探索计算机视觉模型的鲁棒性和泛化性能,特别适用于未标注对象的识别领域,主要受众为AI研究人员
pix2struct-base - Pix2Struct预训练模型,实现多语言视觉-文本任务
文本解码器开源项目模型GithubHuggingfacePix2Struct视觉语言理解图像编码器预训练
Pix2Struct是一种预训练的图像-文本模型,专用于多种任务,如图像字幕生成和视觉问答。该模型通过解析网页截图为简化HTML进行预训练,在文档、插图、用户界面和自然图像领域实现出色性能,灵活整合语言和视觉输入。
XLM-Roberta-Large-Vit-B-32 - 多语言CLIP模型的高性能文本编码器
Huggingface模型XLM-Roberta图像编码器Github多语言开源项目CLIP文本编码器
XLM-Roberta-Large-Vit-B-32是一个多语言CLIP模型的文本编码器,支持超过50种语言。该模型与ViT-B-32图像编码器配合,可实现跨语言的图像-文本匹配。在MS-COCO数据集的多语言文本-图像检索任务中,R@10指标表现优异。模型可轻松提取多语言文本嵌入,为跨语言视觉-语言任务提供支持。使用简单,适用于多语言环境下的图像搜索、内容理解等应用场景。
blip2-opt-2.7b-coco - BLIP-2视觉语言模型实现图像描述和视觉问答功能
Huggingface模型BLIP-2图像编码器Github图像到文本开源项目视觉问答OPT-2.7b
BLIP-2是一个集成CLIP图像编码器、查询转换器和OPT-2.7b语言模型的视觉语言系统。该模型支持图像描述、视觉问答和图像对话任务,在COCO数据集上经过微调,拥有27亿参数。BLIP-2能够生成与图像相关的高质量文本,但可能存在偏见和安全性问题,使用时需谨慎评估其输出结果。
blip2-opt-6.7b-coco - 结合图像理解与自然语言处理的多模态AI系统
模型视觉问答开源项目BLIP-2Huggingface图像标注OPT-6.7bGithub图像编码器
BLIP-2是一种创新的视觉-语言AI系统,集成了CLIP图像编码器、查询转换器和OPT-6.7b大型语言模型。通过冻结预训练的图像编码器和语言模型,仅训练查询转换器,实现了视觉和语言的有效桥接。该模型能够完成图像描述、视觉问答和基于图像的对话等多样化任务。尽管BLIP-2继承了OPT模型的强大能力,但研究人员在应用时需要注意评估其在特定场景中可能存在的偏见和安全风险。
ViT-B-32__openai - CLIP模型的ONNX导出版本用于图像和文本嵌入生成
CLIP模型ImmichGithub文本编码器自托管照片库图像编码器Huggingface开源项目
ViT-B-32__openai项目是CLIP模型的ONNX导出版本,将视觉和文本编码器分离为独立模型。这种设计适用于生成图像和文本嵌入,特别针对Immich自托管照片库。该项目可用于处理大量图像和文本数据,有助于改进图像检索和跨模态搜索功能。
chinese-clip-vit-huge-patch14 - 基于ViT-H/14和RoBERTa的中文图文对比学习模型
检索图像编码器Chinese-CLIP中文数据集开源项目文本编码器模型HuggingfaceGithub
chinese-clip-vit-huge-patch14是一个基于ViT-H/14和RoBERTa-wwm-large的中文CLIP模型,在大规模中文图文数据上训练,表现卓越。支持在MUGE、Flickr30K-CN和COCO-CN等数据集中的图文检索和零样本分类。提供API实现简便的图文特征提取及相似度计算,详情请参见GitHub仓库。
pix2struct-docvqa-base - 基于pix2struct的跨领域视觉问答图像解码模型
Huggingface图像编码器开源项目模型预训练模型Hugging FaceGithubPix2Struct视觉问答
Pix2Struct是一个预训练的图像到文本解码模型,旨在提升文档视觉问答的效率,通过解析网页截图实现多领域视觉语言理解的增强。
openlrm-mix-base-1.1 - 从图像生成3D模型的开源解决方案
模型卡开源项目模型GithubHuggingface图像编码器OpenLRM开源实现训练数据
OpenLRM V1.1结合Objaverse和MVImgNet数据集提供从图像生成3D模型的开源解决方案。该项目利用DINOv2作为图像编码器,并使用多层次三平面解码器。与原始论文不同,该模型未采用延迟反向传播技术,并引入随机背景色进行训练。本项目依据Creative Commons非商业许可协议发布,适用于研究用途,商业使用被禁止。用户需注意训练数据中可能存在的偏见,并确保其用法符合法律法规。