#大型视觉语言模型

VLMEvalKit - 开源的大型视觉语言模型评估工具包

Github开源项目开源VLMEvalKit评估工具包大型视觉语言模型多模态数据集

VLMEvalKit是一款开源的大型视觉语言模型评估工具包，支持即插即用的评估操作，无需繁重的数据准备。该工具包支持多种顶级数据库和最新模型测试，并为用户提供精确匹配和基于LLM的答案提取两种评估结果。有效工具，帮助专业人员和研究者评估模型性能。

Video-ChatGPT - 创新视频对话技术开启细致视频理解新纪元

Github开源项目多模态问答系统视频理解大型视觉语言模型Video-ChatGPT

Video-ChatGPT是一个融合大型视觉和语言模型的视频对话系统。该项目构建了10万条视频-指令对数据集,开发了首个视频对话量化评估框架,在视频推理、创意生成、空间和时间理解等任务中表现出色。这一开源项目为视频内容理解和人机交互带来了新的发展方向。

相关文章

Article Cover

VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包

Article Cover

Video-ChatGPT: 开创视频对话新纪元的人工智能模型

Article Cover

VLMEvalKit入门指南 - 开源大规模视觉语言模型评估工具包

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号