#大型视觉语言模型
VLMEvalKit - 开源的大型视觉语言模型评估工具包
Github开源项目开源VLMEvalKit评估工具包大型视觉语言模型多模态数据集
VLMEvalKit是一款开源的大型视觉语言模型评估工具包,支持即插即用的评估操作,无需繁重的数据准备。该工具包支持多种顶级数据库和最新模型测试,并为用户提供精确匹配和基于LLM的答案提取两种评估结果。有效工具,帮助专业人员和研究者评估模型性能。
Video-ChatGPT - 创新视频对话技术开启细致视频理解新纪元
Github开源项目多模态问答系统视频理解大型视觉语言模型Video-ChatGPT
Video-ChatGPT是一个融合大型视觉和语言模型的视频对话系统。该项目构建了10万条视频-指令对数据集,开发了首个视频对话量化评估框架,在视频推理、创意生成、空间和时间理解等任务中表现出色。这一开源项目为视频内容理解和人机交互带来了新的发展方向。
相关文章