XPretrain项目介绍
XPretrain项目是由微软研究院的MSM小组开发的一个多模态学习项目,该项目致力于研究基于预训练方法的多模态学习,特别是在视频与语言、图像与语言的结合上。
多模态学习
多模态学习是指通过结合不同类型的数据,例如图像、视频和文字等,来提高模型的学习能力。XPretrain项目中主要聚焦于以下两个方面:
视频与语言
数据集
- HD-VILA-100M数据集:这是一个高分辨率且多样化的视频-语言数据集,专为训练和评估多模态模型而设计。
预训练模型
- HD-VILA (CVPR 2022):这是一个高分辨率、多样化的视频-语言预训练模型。
- LF-VILA (NeurIPS 2022):该模型针对长篇视频与语言的预训练而设计。
- CLIP-ViP (ICLR 2023):将图像-语言预训练模型适配到视频-语言的预训练中。
图像与语言
预训练模型
- Pixel-BERT:一个端到端的图像与语言预训练模型。
- SOHO (CVPR 2021 oral):改进的端到端图像与语言预训练模型,引入了量化的视觉标记。
- VisualParsing (NeurIPS 2021):基于Transformer的端到端图像与语言预训练模型。
项目动态
- 2023年3月,发布了CLIP-ViP和LF-VILA的代码。
- 2023年1月,CLIP-ViP论文被ICLR 2023接收。
- 2022年9月,LF-VILA论文被NeurIPS 2022接收,同时发布HD-VILA的代码。
- 2022年3月,HD-VILA-100M数据集面向公众发布,并在同月HD-VILA被CVPR 2022接收。
参与贡献
该项目鼓励贡献和建议。大部分贡献需要签署贡献者许可协议(CLA),这确保了贡献者有权利并实际授予项目使用其贡献的权利。在提交拉取请求时,CLA机器人会自动判断是否需要提供CLA,并给出相应指示。
品牌及商标声明
此项目可能包含微软或其他公司的商标及徽标。使用需遵循相关的品牌指导原则,且不能引起误解或暗示微软赞助。
联系信息
如果在使用预训练模型时遇到问题,请提交问题反馈。此外,如需其他沟通,请联系刘贝博士(bei.liu@microsoft.com)或傅建龙博士(jianf@microsoft.com)。