#零样本分类

LanguageBind: 突破语言与多模态对齐的前沿技术

2 个月前

LanguageBind 多模态预训练视频语言零样本分类 Github 开源项目

2 个月前

Long-CLIP：解锁CLIP的长文本处理能力

2 个月前

Long-CLIP CLIP 文本-图像检索零样本分类 AI模型 Github 开源项目

2 个月前

Uni3D:探索大规模统一3D表示

3 个月前

Uni3D 3D表示零样本分类预训练点云 Github 开源项目

3 个月前

OpenShape: 开创3D形状表示的新纪元

3 个月前

OpenShape 3D形状表示开放世界理解零样本分类多模态检索 Github 开源项目

3 个月前

ImageBind: 融合多模态数据的统一嵌入空间

3 个月前

ImageBind 多模态嵌入跨模态检索零样本分类 CVPR 2023 Github 开源项目

3 个月前

GPT-J API: 构建强大的自然语言处理应用

3 个月前

gpt-j-api API端点 GPT-J 文本生成零样本分类 Github 开源项目

3 个月前

相关项目

ImageBind

ImageBind是由Meta AI研发的AI模型，可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用，在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路，研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

ULIP

ULIP是一种多模态预训练框架，集成了语言、图像和点云数据以增强3D理解能力。该框架适用于多种3D骨干网络，如Pointnet2和PointBERT等，无需增加处理延迟。ULIP-2在此基础上进行了扩展，提高了预训练的可扩展性。项目开源了预训练模型、数据集和使用指南，为3D数据分析奠定了基础。

OpenShape_code

该项目开发了新型3D形状表示方法，通过大规模训练实现开放世界理解。这一技术在零样本3D形状分类、检索和语义理解任务中表现优异，支持多模态交互并能进行点云描述和图像生成。提供的在线演示、预训练模型和训练代码为3D视觉研究与应用拓展了新方向。

Uni3D

Uni3D是一个创新的3D预训练框架,致力于大规模3D表示学习。该框架采用2D预训练模型初始化,通过端到端训练实现3D点云与图像-文本特征对齐。Uni3D凭借简洁架构和高效预训练,成功将模型规模扩展至10亿参数,在多项3D任务中取得突破性进展,展现了将2D深度学习优势迁移至3D领域的巨大潜力。

Long-CLIP

Long-CLIP项目将CLIP模型的最大输入长度从77扩展到248，大幅提升了长文本图像检索性能。在长标题文本-图像检索任务中，R@5指标提高20%；传统文本-图像检索提升6%。这一改进可直接应用于需要长文本处理能力的各类任务，为图像检索和生成领域带来显著进展。

LanguageBind

LanguageBind是一种基于语言的多模态预训练方法,通过语言将不同模态进行语义关联。该方法引入了VIDAL-10M数据集,包含1000万条视频、红外、深度、音频及对应语言数据。通过多视角增强的语言描述训练,LanguageBind在多个跨模态任务上实现了先进性能,无需中间模态即可完成跨模态语义对齐。

Mutable.ai

Mutable.ai是一个基于人工智能的代码文档生成平台，自动分析代码结构并生成详细文档和Wiki。平台可回答复杂的代码相关问题，如多框架支持和文件功能。它旨在优化开发流程，提升团队效率，让开发者专注于核心编码工作，减少手动编写文档的时间。

chinese-clip-vit-large-patch14

这一模型采用ViT-L/14和RoBERTa-wwm-base进行编码，在大规模中文图文数据集上训练，支持高效的图文嵌入和相似度计算。项目提供直观的API和多项任务评估，展现了在零样本图像分类和图文检索上的杰出表现。

gpt-j-api

介绍了通过API与GPT-J语言模型进行互动，支持文本生成和多语言文本分类，包括Python和Bash示例、公开API接口、Streamlit应用和独立API文档。提供了在TPU VM上设置服务器和部署Streamlit仪表板的详细指南。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com