#ImageBind

InternGPT入门学习资料汇总 - 开源多模态AI交互演示平台

2 个月前

InternGPT iGPT Husky DragGAN ImageBind Github 开源项目

2 个月前

AnomalyGPT: 利用大型视觉语言模型检测工业异常

3 个月前

AnomalyGPT 工业异常检测视觉语言模型 ImageBind Vicuna Github 开源项目

3 个月前

Seeing and Hearing: 开创性的开放域视听生成技术

3 个月前

视频音频生成多模态生成扩散模型 ImageBind 跨模态生成 Github 开源项目

3 个月前

ImageBind: 融合多模态数据的统一嵌入空间

3 个月前

ImageBind 多模态嵌入跨模态检索零样本分类 CVPR 2023 Github 开源项目

3 个月前

InternGPT: 突破语言界限的多模态交互系统

3 个月前

InternGPT iGPT Husky DragGAN ImageBind Github 开源项目

3 个月前

相关项目

InternGPT

InternGPT允许用户通过点击、拖拽和绘图与ChatGPT进行视觉交互，优化了视觉任务处理的效率和准确性。该系统集成了辅助控制机制和高质量的视觉语言模型Husky，支持多模态对话、图像生成和编辑等功能，适用于复杂的视觉场景。

ImageBind

ImageBind是由Meta AI研发的AI模型，可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用，在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路，研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

Seeing-and-Hearing

Seeing-and-Hearing项目提出了一种优化框架，用于跨模态和联合视听内容生成。该方法使用预训练的ImageBind模型连接独立的视频和音频生成模型，实现双向条件生成和联合视听生成。这一技术适用于视频到音频、音频到视频、图像到音频等多种任务，为内容创作提供了新的可能。

AnomalyGPT

AnomalyGPT是一种创新的工业异常检测方法,结合了大型视觉语言模型技术。该方法无需手动设置阈值,能自动检测工业图像中的异常,并指出其位置和特征。AnomalyGPT通过预训练的图像编码器和语言模型,利用模拟异常数据来分析工业图像及相关描述。此外,它还可以仅凭少量正常样本就能识别新类型的异常。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com