🦜 Ask-Anything [论文]
|
|
|
|
[VideoChat-7B-8Bit] 用于视频和图像的端到端聊天机器人。
[VideoChat2-7B] 用于视频和图像的端到端聊天机器人。
🚀: 我们现在通过视频和图像聊天的指令微调更新了 video_chat
!详情见此处。我们在InternVideo发布了指令数据。旧版本的 video_chat
已迁移到 video_chat_with_chatGPT
。
⭐️: 我们也在开发更新版本,敬请期待!
:clapper: [端到端聊天机器人]
https://github.com/OpenGVLab/Ask-Anything/assets/24236723/a8667e87-49dd-4fc8-a620-3e408c058e26
:movie_camera: [与ChatGPT的交流]
# 🔥 更新-
2024/06/25: 我们发布了使用
vllm
的 videochat2 分支,加速了 videochat2 的推理速度。 -
2024/06/19: 🎉🎉 我们的 VideoChat2 在 MLVU 上取得了开源 VideoLLMs 中的最佳表现,这是一个多任务长视频理解基准。
-
2024/06/13: 修复了一些 bug 并提供了测试脚本/
- ⚠️ 我们替换了 MVBench 中一些重复的 (~30) 问答对,可能仅影响结果 0.5%。
- 📢 我们提供了测试 EgoSchema 和 Video-MME 的脚本,请查看 demo_mistral.ipynb 和 demo_mistral_hd.ipynb。
-
2024/06/07: 🔥🔥🔥 我们发布了 VideoChat2_HD,这是使用高分辨率数据微调的版本,能够处理更多样的任务。在不同基准上表现更佳,特别是在详细描述方面。此外,它在 Video-MME 上达到了 54.8%,是 7B MLLMs 中的最佳得分。快来试试吧!🏃🏻♀️🏃🏻
-
2024/06/06: 我们发布了 VideoChat2_phi3,这是一款性能强劲的快速模型。
-
2024/05/22: 我们发布了 VideoChat2_mistral,它在多样化任务上表现更佳(MVBench 60.4%、NExT-QA 78.6%、STAR 63.8%、TVQA 46.4%、EgoSchema-full 54.4%、IntentQA 80.5%)。更多细节已在论文中更新。
-
2024/04/05: MVBench 被选为海报展示(亮点)!
-
2024/02/27: MVBench 被 CVPR2024 接收。
-
2023/11/29: VideoChat2 和 MVBench 发布。
- VideoChat2 是基于 UMT 和 Vicuna-v0 的强大基线。
- 发布了 200 万 多样化的 指令数据 以进行有效调优。
- MVBench 是一个全面的视频理解基准。
-
2023/05/11: 端到端 VideoChat 及其技术报告。
-
2023/04/25: 使用 ChatGPT 观看超过一分钟的视频
- VideoChat LongVideo: 将 langchain 和 whisper 集成到 VideoChat 中。
-
2023/04/21: 与 MOSS 对话
- 与 MOSS 的 VideoChat: 与 MOSS 的明确交流。
-
2023/04/20: 与 StableLM 对话
- 与 StableLM 的 VideoChat: 与 StableLM 的明确交流。
-
2023/04/19: 代码发布 & 在线演示
- 与 ChatGPT 的 VideoChat: 与 ChatGPT 的明确交流。对时间敏感。有演示可用!
- MiniGPT-4 for video: 与 Vicuna 的隐式交流。不对时间敏感。(MiniGPT-4 的简单扩展,将在未来改进。)
🔨 开始使用
构建视频聊天:
📄 引用
如果你觉得这个项目对你的研究有帮助,请考虑引用:
@article{2023videochat,
title={VideoChat: Chat-Centric Video Understanding},
author={Li, Kunchang and He, Yinan and Wang, Yi and Li, Yizhuo and Wang, Wenhai and Luo, Ping and Wang, Yali and Wang, Limin and Qiao, Yu},
journal={arXiv preprint arXiv:2305.06355},
year={2023}
}
⏳ 持续进行中
我们团队不断研究通用视频理解和长期视频推理:
- 强大的视频基础模型。
- 视频文本数据集和视频推理基准。
- 基于大型语言模型的视频语言系统。
- 视频的人工智能生成内容(AIGC)。
- ...
🌤️ 讨论组
在试用、运行或部署过程中如有任何疑问,请随时加入我们的微信群讨论!如果你对项目有任何想法或建议,也欢迎加入我们的微信群讨论!
我们正在上海人工智能实验室的 通用视觉组 招聘研究人员、工程师和实习生。如果你有兴趣与我们一起工作,请联系 Yi Wang (wangyi@pjlab.org.cn
)。