ComfyUI中的Florence2
Florence-2是一种先进的视觉基础模型,采用基于提示的方法来处理广泛的视觉和视觉语言任务。 Florence-2可以解释简单的文本提示来执行诸如图像描述、物体检测和分割等任务。 它利用我们的FLD-5B数据集,该数据集包含1.26亿张图像的54亿个注释,以掌握多任务学习。 该模型的序列到序列架构使其能够在零样本和微调设置中都表现出色,证明是一个具有竞争力的视觉基础模型。
新功能:文档视觉问答(DocVQA)
这个分支包括使用Florence2模型进行文档视觉问答(DocVQA)的支持。DocVQA允许您针对文档图像的内容提问,模型将根据文档中的视觉和文本信息提供答案。这个功能特别适用于从扫描文档、表格、收据和其他文本密集型图像中提取信息。
安装:
将此仓库克隆到'ComfyUI/custom_nodes'文件夹。
安装requirements.txt中的依赖项,需要transformers版本至少为4.38.0:
pip install -r requirements.txt
或者如果你使用便携版(在ComfyUI_windows_portable文件夹中运行):
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-Florence2\requirements.txt
支持以下模型,这些模型会自动下载到ComfyUI/LLM
:
https://huggingface.co/microsoft/Florence-2-base https://huggingface.co/microsoft/Florence-2-base-ft https://huggingface.co/microsoft/Florence-2-large https://huggingface.co/microsoft/Florence-2-large-ft https://huggingface.co/HuggingFaceM4/Florence-2-DocVQA
使用DocVQA
使用DocVQA功能:
- 将文档图像加载到ComfyUI中。
- 将图像连接到Florence2 DocVQA节点。
- 输入关于文档的问题。
- 节点将根据文档内容输出答案。
示例问题:
- "这张收据上的总金额是多少?"
- "这份表格中提到的日期是什么?"
- "这封信的发件人是谁?"
注意:回答的准确性取决于输入图像的质量和问题的复杂程度。