#3D-VisTA

3D-VisTA: 突破性的3D视觉与文本对齐预训练模型

3 个月前

3D-VisTA 计算机视觉自然语言处理预训练模型多模态融合 Github 开源项目

3 个月前

相关项目

3D-VisTA

3D-VisTA是一种新型预训练变换器模型,专注于3D视觉和文本对齐。该模型采用简洁统一的架构,无需复杂的任务特定设计,可轻松适应多种下游任务。通过在大规模ScanScribe数据集上预训练,3D-VisTA在视觉定位、密集字幕生成等3D视觉语言理解任务中达到了领先水平。此外,该模型还表现出优异的数据效率,即使在标注数据有限的情况下也能保持强劲性能。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com