Project Icon

ViT-B-16-SigLIP-256

WebLI数据集训练的SigLIP图像-文本对比学习模型

ViT-B-16-SigLIP-256是基于WebLI数据集训练的SigLIP模型,支持零样本图像分类。该模型兼容OpenCLIP和timm库,通过对比学习生成图像和文本特征表示。它能够计算图像与文本标签的相似度,适用于灵活的图像分类和检索应用。SigLIP采用Sigmoid损失函数进行语言-图像预训练,提高了模型性能。

CLAP - 音频与文本的对比学习预训练模型
CLAPGithub多模态学习开源项目机器学习音频处理预训练模型
CLAP是一个音频-文本对比学习预训练模型,可提取音频和文本的潜在表示。它基于CLIP架构设计,通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库,支持从音频文件或数据中直接提取特征。
Imagen - 文字生成图片的AI技术
AI工具AI开发COCO FIDImagen扩散模型文本到图像模型训练热门语言模型
Imagen,一种先进的AI图片生成工具,利用深度语言理解和极致的图像真实性,实现从文字到图像的转换。此模型不仅在COCO数据集上刷新了技术记录,还通过高效的U-Net架构和强大的文本编码系统,优化了图文一致性和图像质量。鉴于潜在的社会影响和数据集偏差问题,当前未开放源代码或公共演示版本。
CogVLM - 开源视觉语言模型,提升图像理解与跨模态对话功能
CogAgentCogVLMGithub图像理解多回合对话开源项目跨模态基准测试
CogVLM和CogAgent是领先的开源视觉语言模型,专注于图像理解和跨模态任务。CogVLM-17B拥有100亿视觉参数和70亿语言参数,并在NoCaps、Flicker30k等十个经典跨模态基准测试上表现出色。CogAgent在CogVLM的基础上改进,增添了GUI图像代理能力,支持1120*1120分辨率的图像理解,并在VQAv2、TextVQA等九个基准测试中表现优秀。该项目提供详细的技术文档、示例代码和Web演示,用户可以方便地进行模型推理和微调。了解更多信息,请访问项目主页。
clip-image-sorter - 浏览器中基于OpenAI CLIP模型的本地图像排序与搜索
GithubOpenAI's CLIP图片排序图片搜索开源项目文本相似性浏览器
基于OpenAI的CLIP模型和文件系统访问API,在浏览器内轻松实现本地文件夹中的图像排序与搜索功能,无需安装额外软件,简化图像处理流程。
TF-ICON - 利用Text-driven Diffusion模型实现跨域图像无训练组合的框架
GithubICCV 2023TF-ICON开源项目扩散模型无训练跨域图像合成
TF-ICON是一个利用Text-driven Diffusion模型实现跨域图像无训练组合的框架。相比需要实例化优化或微调预训练模型的方法,TF-ICON无需额外训练或优化,就可无缝集成用户提供的对象,还使用了特别提示来帮助模型准确还原真实图像。实验表明,该方法在多个数据集(如CelebA-HQ、COCO和ImageNet)上的表现优于现有技术。
clip-interrogator - 一种提示工程工具
CLIP InterrogatorGithubOpenAIStable Diffusion人工智能图像生成开源项目
CLIP Interrogator结合了OpenAI的CLIP和Salesforce的BLIP,优化生成与给定图像相匹配的文本提示。支持Stable Diffusion和DreamStudio等文本到图像模型。现已作为Stable Diffusion Web UI扩展供使用,并支持在Colab、HuggingFace和Replicate上运行。用户可通过Python虚拟环境安装,并根据系统VRAM配置自定义优化。提供多种预训练CLIP模型供选择,满足不同需求。
colpali - 基于PaliGemma-3B的多向量文档检索模型
ColPaliGithubHuggingfacePaliGemma多向量表示开源项目文档检索模型视觉语言模型
ColPali是一个基于PaliGemma-3B的文档检索模型,结合了ColBERT策略生成文本和图像的多向量表示。该模型将SigLIP的图像块嵌入输入到语言模型中,实现文本与图像的深度交互,从而提升检索效果。尽管主要在英语数据集上训练,ColPali展现出对其他语言的零样本泛化能力。这一创新设计为多模态文档检索领域带来了新的技术方案。
datacomp - 多模态预训练数据集构建的创新竞赛
CLIP模型DataCompGithub图像文本对开源项目数据集机器学习
DataComp是一项聚焦于多模态预训练数据集设计的竞赛。参赛者需从海量未筛选的图像-文本对中构建高质量数据集,以提升CLIP模型在下游任务的表现。竞赛设有两个赛道和四个规模,适应不同计算资源需求。项目提供完整工具包,涵盖数据获取、模型训练和评估等环节,支持参与者进行数据集创新。
idefics2-8b - 多模态AI模型实现图文交互
GithubHuggingfaceIdefics2图像理解多模态模型开源项目模型自然语言对话视觉AI
Idefics2是一款多模态AI模型,支持图像和文本的任意序列输入并生成文本输出。它能回答图像问题、描述视觉内容、基于多图创作故事,也可作为纯语言模型使用。相比前代,Idefics2在OCR、文档理解和视觉推理方面有显著提升。模型提供8B参数基础版、指令微调版和长对话优化版,均以Apache 2.0许可开源发布。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号