ComfyUI-Florence2
ComfyUI-Florence2项目基于Florence-2视觉基础模型,可处理多种视觉和视觉-语言任务。除支持图像描述、物体检测和分割外,还新增文档视觉问答功能。项目利用FLD-5B数据集进行多任务学习,采用序列到序列架构,在零样本和微调场景下表现优异。用户可通过ComfyUI界面便捷使用Florence2的各项功能。