杰出基础模型与多模态模型
👁️ + 💬 + 🎧 = 🤖
基础模型 - 一种预训练的机器学习模型,用于作为各种下游任务的基础。它从大数据集中捕捉到的通用知识,可以通过微调更有效地执行特定任务。
多模态模型 - 一种可以同时处理多种模态(例如文本、图像、视频、音频等)的模型。
🤖 模型
YOLO-World: 实时开放词汇对象检测
Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
- 日期: 2024-01-30
- 模态: 👁️ + 💬
- 任务: 零样本对象检测
深度感知
Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
- 日期: 2024-01-19
- 模态: 👁
- 任务: 深度估计
EfficientSAM: 高效分割的掩码图像预训练
Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao, Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman Krishnamoorthi, Vikas Chandra
- 日期: 2023-12-01
- 模态: 👁️
- 任务: 零样本对象分割
Qwen-VL-Plus / Max
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- 日期: 2023-11-28
- 模态: 👁️ + 💬
- 任务: 图像描述, VQA, 零样本对象检测
CogVLM: 预训练语言模型的视觉专家
Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang
- 日期: 2023-11-06
- 模态: 👁️ + 💬
- 任务: 图像描述, VQA
Fuyu-8B: 用于AI代理人的多模态架构
Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, Sağnak Taşırlar
- 日期: 2023-10-17
- 模态: 👁️ + 💬
- 任务: 图像分类, 图像描述, VQA, 查找图中文本
Ferret: 在任何粒度下参考并定位任何事物
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
- 日期: 2023-10-11
- 模态: 👁️ + 💬
- 任务: 图像描述, VQA, 词语定位, 对象检测
MetaCLIP: 揭示CLIP数据
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer
- 日期: 2023-09-28
- 模态: 👁️ + 💬
- 任务: 零样本分类
Qwen-VL: 一个多功能视觉语言模型用于理解、定位、文本阅读等
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou
- 日期: 2023-09-24
- 模态: 👁️ + 💬
- 任务: 图像描述, VQA
SigLIP: 用于语言图像预训练的Sigmoid损失
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer
- 日期: 2023-08-27
- 模态: 👁️💬
- 任务: 零样本图像分类
牛轧糖:用于学术文档的神经光学理解
Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
- 日期: 2023-08-25
- 模态: 👁️💬
- 任务: 视觉问答
AudioLDM 2:通过自监督预训练学习整体音频生成
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
- 日期: 2023-08-10
- 模态: 💬️ + 🎧
- 任务: 文本到音频, 文本到语音
OpenFlamingo:一个用于训练大型自回归视觉语言模型的开源框架
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt
- 日期: 2023-08-02
- 模态: 👁️ + 💬
- 任务: 图像分类, 图像字幕, 视觉问答
Kosmos-2:将多模态大型语言模型接地至现实
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
- 日期: 2023-07-26
- 模态: 👁️ + 💬
- 任务: 图像字幕, 视觉问答, 短语定位
OWLv2:扩展开放词汇物体检测
Matthias Minderer, Alexey Gritsenko, Neil Houlsby
- 日期: 2023-06-17
- 模态: 👁️
- 任务: 零样本物体检测
ImageBind:一个嵌入空间绑定所有
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra
- 日期: 2023-05-09
- 模态: 👁️ + 💬 + 🎧
- 任务:
LLaVA:大型语言和视觉助手
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
- 日期: 2023-04-17
- 模态: 👁️ + 💬
- 任务: 视觉语言建模
分割任何
Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick
- 日期: 2023-04-05
- 模态: 👁️
- 任务: 零样本物体分割
定位DINO:将DINO和定位预训练结合进行开放集合物体检测
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- **日期: **2023-03-09
- 模态: 👁️ + 💬
- 任务: 短语定位, 零样本物体检测
BLIP-2: 引导语言图像预训练与冻结的图像编码器和大型语言模型
李俊南, 李东旭, Silvio Savarese, Steven Hoi
- 日期: 2023-01-30
- 模式: 👁️ + 💬
- 任务: 图像描述, 视觉问答
Whisper: 通过大规模弱监督实现稳健的语音识别
Alec Radford, 金钟旭, 许韬, Greg Brockman, Christine McLeavey, Ilya Sutskever
- 日期: 2022-12-06
- 模式: 💬️ + 🎧
- 任务: 语音转文字
OWL-ViT: 使用视觉变换器进行简单的开放词汇物体检测
Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, 沈卓然, 王啸, 翟晓华, Thomas Kipf, Neil Houlsby
- 日期: 2022-05-12
- 模式: 👁️ + 💬
- 任务: 零样本物体检测
CLIP: 从自然语言监督中学习可转移的视觉模型
Alec Radford, 金钟旭, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
- 日期: 2021-02-26
- 模式: 👁️ + 💬
- 任务: 零样本分类
🦸 贡献
我们非常欢迎您帮助使这个仓库变得更好!如果您知道一些未被列出的精彩论文,或者有任何改进建议,请随时提出一个问题或提交一个拉取请求。