#VideoLLaMA2

VideoLLaMA2: 推进视频大语言模型的时空建模与音频理解能力

2024年09月04日

2024年09月04日

相关项目

VideoLLaMA2

VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。

投诉举报邮箱: service@vectorlightyear.com