项目背景
Theia 是一个专为机器人学习设计的视觉基础模型,由多个完成不同视觉任务的现成视觉基础模型提炼而成。通过丰富的视觉表示,Theia 可以编码多样的视觉知识,从而增强机器人的学习能力。根据相关论文《Theia: Distilling Diverse Vision Foundation Models for Robot Learning》,Theia 在使用更少的训练数据和更小模型尺寸的情况下,表现超过了其教师模型和先前的机器人学习模型。
模型细节
项目中的 theia-tiny-patch16-224-cddsv
模型以 DeiT-Tiny 为基础,融合多种先进的视觉模型技术,包括 CLIP、Depth Anything、DINOv2、Segment Anything 以及 ViT。关于更多使用细节,用户可以访问 Theia 项目库。
论文引用
如果在研究中使用了 Theia 模型,建议引用以下 BibTeX 条目:
@article{shang2024theia,
author = {Shang, Jinghuan and Schmeckpeper, Karl and May, Brandon B. and Minniti, Maria Vittoria and Kelestemur, Tarik and Watkins, David and Herlant, Laura},
title = {Theia: Distilling Diverse Vision Foundation Models for Robot Learning},
journal = {arXiv},
year = {2024},
}
使用须知
Theia 的预训练模型权重和代码在 The AI Institute License 下发布。用户可以在遵守相关条款的前提下,进行源代码或二进制形式的再分发和使用,主要用于非商业性的研究用途。
具体来说,软件的修改版本需要明确标识,各项条款在再分发的文档及材料中都需保留,并且本项目及其贡献者不承担任何明示或暗示的担保责任。任何基于本软件使用责任引发的损害或商业中断责任,将不会由 The AI Institute 或贡献者负责。
图示及示例视频可通过项目页面查看,以便更好地理解模型的效果和应用场景。