#视觉指令微调

LLaVAR: 增强视觉指令调优以实现文本丰富图像理解

3 个月前

LLaVAR 视觉指令微调文本丰富图像理解多模态大语言模型 OCR能力 Github 开源项目

3 个月前

BakLLaVA: 多模态视觉语言模型的创新与突破

3 个月前

BakLLaVA 多模态语言模型视觉指令微调 AI训练 Github 开源项目

3 个月前

相关项目

BakLLaVA

BakLLaVA项目通过优化基础模型、改进训练流程、使用定制数据集和重构LLaVA架构，将先进的多模态能力融入语言模型。该项目与LAION、Ontocord和Skunkworks OSS AI小组合作，致力于提升AI系统理解和生成视觉内容的能力。BakLLaVA为研究人员提供了探索视觉语言模型前沿的强大工具。

LLaVAR

LLaVAR项目致力于增强大型语言模型对文本丰富图像的理解能力。通过改进视觉指令微调方法，该项目显著提升了模型在OCR相关任务上的表现。LLaVAR开源了模型权重、训练数据，并提供了环境配置、训练脚本和评估方法，为相关研究和开发提供了全面支持。

llava-v1.6-34b-hf

LLaVa-NeXT模型结合大规模语言模型与视觉编码器，通过提高图像分辨率和优化数据集，增强了OCR和常识推理能力，适用于多模态对话应用场景。支持图像字幕生成和视觉问答，提供双语功能与商业许可保障。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com