#图像嵌入

CLIP-as-service入门学习资料 - 低延迟高扩展性的图像和文本嵌入服务

2 个月前
Cover of CLIP-as-service入门学习资料 - 低延迟高扩展性的图像和文本嵌入服务

clip-retrieval 学习资料汇总 - 轻松计算CLIP嵌入并构建检索系统

2 个月前
Cover of clip-retrieval 学习资料汇总 - 轻松计算CLIP嵌入并构建检索系统

Gemini: Google 的多模态AI模型引领未来智能交互

3 个月前
Cover of Gemini: Google 的多模态AI模型引领未来智能交互

CLIP-as-service: 高效可扩展的图像和文本嵌入服务

3 个月前
Cover of CLIP-as-service: 高效可扩展的图像和文本嵌入服务

CLIP-Retrieval: 构建高效的多模态语义检索系统

3 个月前
Cover of CLIP-Retrieval: 构建高效的多模态语义检索系统
相关项目
Project Cover

clip-retrieval

clip-retrieval 提供一个建立语义搜索系统的强大工具,使得用户能够迅速实现图像和文本的嵌入计算及索引构建。该项目能在20小时内处理超过1亿的图文嵌入,支持远程查询、数据过滤以及简洁的前端用户界面,适用于学术研究和商业应用。

Project Cover

clip-as-service

CLIP-as-service是一款以神经网络为基础,专注于提供高效且易于扩展的图像和文本嵌入服务。其面向大规模数据处理,支持多种并发请求,适合集成到各种神经网络搜索框架中。这个服务通过简洁的API和自动负载均衡,让用户无需深厚技术背景即可便捷使用。同时,该服务能与Jina和DocArray等神经搜索生态系统紧密结合,助力开发者快速部署多模态和跨模态应用。

Project Cover

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器,具备特殊解码功能来生成图像。其架构类似于Fuyu,但扩展至多种模态,并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略,初步实现图像嵌入,后续将集成音频和视频嵌入。

Project Cover

InternViT-300M-448px

InternViT-300M-448px是一个经过知识蒸馏的视觉基础模型,具有304M参数量和448x448的动态输入分辨率。该模型支持多图块处理,训练时1-12个,测试时可扩展至40个。通过在LAION、COYO等多个数据集上预训练,并整合额外OCR数据,模型展现出优秀的鲁棒性、文字识别和高分辨率处理能力。它可为多种视觉任务提供高质量的图像特征提取。

Project Cover

convnext_atto_ols.a2_in1k

本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型,其低参数量和高效计算性能使其成为图像处理任务(如特征图提取和图像嵌入生成)的理想选择。该模型在timm库中训练,支持快速且准确的分类任务,并适用于多种计算需求。

Project Cover

tf_efficientnetv2_m.in21k_ft_in1k

EfficientNetV2模型在ImageNet-21k数据集上预训练,并在ImageNet-1k上微调,最初使用TensorFlow构建,由Ross Wightman移植至PyTorch。其参数量为54.1M,能够在不同分辨率下实现精确的图像识别,并支持通过timm库执行图像分类、特征提取和嵌入生成等多任务。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号