#视觉基础模型
相关项目
GPT4Tools
GPT4Tools是基于Vicuna (LLaMA)的创新系统,通过71K自建指令数据实现对多个视觉基础模型的智能控制。该系统能自动决策和利用不同视觉模型,实现对话中的图像交互。项目支持通过自我指导和LoRA微调教授大语言模型使用工具,为图像相关需求提供高效解决方案。GPT4Tools的开源性和灵活性使其成为AI研究与应用的重要工具。
RADIO
AM-RADIO是一个将多个大型视觉基础模型蒸馏为单一模型的框架。其核心产物RADIO作为新一代视觉基础模型,在多个视觉任务中表现优异,可作为通用视觉骨干网络使用。RADIO通过蒸馏整合了CLIP、DINOv2和SAM等模型,保留了文本定位和分割对应等特性。在ImageNet零样本分类、kNN和线性探测分割等任务上,RADIO超越了教师模型,同时提升了视觉语言模型的性能。此外,RADIO支持任意分辨率和非方形图像输入,并提供了名为E-RADIO的高效变体。
ComfyUI-Florence2
ComfyUI-Florence2项目基于Florence-2视觉基础模型,可处理多种视觉和视觉-语言任务。除支持图像描述、物体检测和分割外,还新增文档视觉问答功能。项目利用FLD-5B数据集进行多任务学习,采用序列到序列架构,在零样本和微调场景下表现优异。用户可通过ComfyUI界面便捷使用Florence2的各项功能。