#视觉定位
ml-ferret - 高级多模态语言模型实现精细指代和定位
Github开源项目多模态大语言模型Ferret视觉定位指代理解AI视觉交互
Ferret是一个端到端多模态大语言模型,支持任意形式的指代并能在响应中定位内容。通过混合区域表示和空间感知视觉采样器,实现了细粒度和开放词汇的指代与定位。项目提供GRIT数据集和Ferret-Bench评估基准,为多模态模型研究提供重要资源。
Hierarchical-Localization - 模块化的6自由度视觉定位工具箱实现分层定位方法
Github开源项目图像检索特征匹配特征提取视觉定位hloc
这是一个用于6自由度视觉定位的开源工具箱。它采用分层定位方法,结合图像检索和特征匹配技术,提供快速、准确和可扩展的定位能力。该工具箱整合了图像匹配和运动恢复结构(SfM)领域的研究成果,可重现多个室内外视觉定位基准的最佳结果,并支持实现和调试新的定位流程。