#图像嵌入

CLIP-as-service入门学习资料 - 低延迟高扩展性的图像和文本嵌入服务

2 个月前

CLIP-as-service 神经搜索图像嵌入文本嵌入多模态解决方案 Github 开源项目

2 个月前

clip-retrieval 学习资料汇总 - 轻松计算CLIP嵌入并构建检索系统

2 个月前

clip-retrieval 语义搜索图像嵌入文本嵌入机器学习 Github 开源项目

2 个月前

Gemini: Google 的多模态AI模型引领未来智能交互

3 个月前

Gemini 多模态 Transformer 图像嵌入音频处理 Github 开源项目

3 个月前

CLIP-as-service: 高效可扩展的图像和文本嵌入服务

3 个月前

CLIP-as-service 神经搜索图像嵌入文本嵌入多模态解决方案 Github 开源项目

3 个月前

CLIP-Retrieval: 构建高效的多模态语义检索系统

3 个月前

clip-retrieval 语义搜索图像嵌入文本嵌入机器学习 Github 开源项目

3 个月前

相关项目

clip-retrieval

clip-retrieval 提供一个建立语义搜索系统的强大工具，使得用户能够迅速实现图像和文本的嵌入计算及索引构建。该项目能在20小时内处理超过1亿的图文嵌入，支持远程查询、数据过滤以及简洁的前端用户界面，适用于学术研究和商业应用。

clip-as-service

CLIP-as-service是一款以神经网络为基础，专注于提供高效且易于扩展的图像和文本嵌入服务。其面向大规模数据处理，支持多种并发请求，适合集成到各种神经网络搜索框架中。这个服务通过简洁的API和自动负载均衡，让用户无需深厚技术背景即可便捷使用。同时，该服务能与Jina和DocArray等神经搜索生态系统紧密结合，助力开发者快速部署多模态和跨模态应用。

Gemini

Gemini项目实现了一个可处理文本、音频、图像和视频输入的多模态变换器，具备特殊解码功能来生成图像。其架构类似于Fuyu，但扩展至多种模态，并通过直接将图像嵌入输入变换器来处理。组件Codi也采用条件生成策略，初步实现图像嵌入，后续将集成音频和视频嵌入。

InternViT-300M-448px

InternViT-300M-448px是一个经过知识蒸馏的视觉基础模型，具有304M参数量和448x448的动态输入分辨率。该模型支持多图块处理，训练时1-12个，测试时可扩展至40个。通过在LAION、COYO等多个数据集上预训练，并整合额外OCR数据，模型展现出优秀的鲁棒性、文字识别和高分辨率处理能力。它可为多种视觉任务提供高质量的图像特征提取。

convnext_atto_ols.a2_in1k

本项目提供一个基于ImageNet-1k数据集优化的ConvNeXt图像分类模型，其低参数量和高效计算性能使其成为图像处理任务（如特征图提取和图像嵌入生成）的理想选择。该模型在timm库中训练，支持快速且准确的分类任务，并适用于多种计算需求。

tf_efficientnetv2_m.in21k_ft_in1k

EfficientNetV2模型在ImageNet-21k数据集上预训练，并在ImageNet-1k上微调，最初使用TensorFlow构建，由Ross Wightman移植至PyTorch。其参数量为54.1M，能够在不同分辨率下实现精确的图像识别，并支持通过timm库执行图像分类、特征提取和嵌入生成等多任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com