#ImageBind

InternGPT入门学习资料汇总 - 开源多模态AI交互演示平台

2024年09月10日
Cover of InternGPT入门学习资料汇总 - 开源多模态AI交互演示平台

AnomalyGPT: 利用大型视觉语言模型检测工业异常

2024年09月05日
Cover of AnomalyGPT: 利用大型视觉语言模型检测工业异常

Seeing and Hearing: 开创性的开放域视听生成技术

2024年09月04日
Cover of Seeing and Hearing: 开创性的开放域视听生成技术

ImageBind: 融合多模态数据的统一嵌入空间

2024年09月04日
Cover of ImageBind: 融合多模态数据的统一嵌入空间

InternGPT: 突破语言界限的多模态交互系统

2024年08月30日
Cover of InternGPT: 突破语言界限的多模态交互系统
相关项目
Project Cover

InternGPT

InternGPT允许用户通过点击、拖拽和绘图与ChatGPT进行视觉交互,优化了视觉任务处理的效率和准确性。该系统集成了辅助控制机制和高质量的视觉语言模型Husky,支持多模态对话、图像生成和编辑等功能,适用于复杂的视觉场景。

Project Cover

ImageBind

ImageBind是由Meta AI研发的AI模型,可将图像、文本、音频、深度、热感和IMU数据统一到单一嵌入空间。该模型支持跨模态检索、模态组合运算、检测和生成等应用,在多个零样本分类任务中表现良好。ImageBind为多模态AI研究提供了新思路,研究者可通过其开源的PyTorch实现和预训练模型进行进一步探索。

Project Cover

Seeing-and-Hearing

Seeing-and-Hearing项目提出了一种优化框架,用于跨模态和联合视听内容生成。该方法使用预训练的ImageBind模型连接独立的视频和音频生成模型,实现双向条件生成和联合视听生成。这一技术适用于视频到音频、音频到视频、图像到音频等多种任务,为内容创作提供了新的可能。

Project Cover

AnomalyGPT

AnomalyGPT是一种创新的工业异常检测方法,结合了大型视觉语言模型技术。该方法无需手动设置阈值,能自动检测工业图像中的异常,并指出其位置和特征。AnomalyGPT通过预训练的图像编码器和语言模型,利用模拟异常数据来分析工业图像及相关描述。此外,它还可以仅凭少量正常样本就能识别新类型的异常。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号