热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#LLaVA-NeXT-Video
LLaVA-NeXT-Video-7B-hf - 先进多模态AI模型实现视频和图像理解
人工智能
Github
开源项目
大语言模型
模型
多模态
Huggingface
视频理解
LLaVA-NeXT-Video
LLaVA-NeXT-Video-7B-hf是一个开源多模态AI模型,通过视频和图像数据的混合微调,实现了出色的视频理解能力。该模型支持多视觉输入和多提示生成,在VideoMME基准测试中表现优异。基于Vicuna-7B语言模型,可处理视频问答和图像描述等视觉任务。模型支持4位量化和Flash Attention 2优化,提供灵活高效的使用方式。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号