👁️ VLM 节点
🔽下面是示例 • 📙 访问我的其他仓库,了解更多关于视觉语言模型的信息
使用方法
- 适用于 Windows 和 Linux
cd custom_nodes
git clone https://github.com/gokayfem/ComfyUI_VLM_nodes.git
- 适用于 macOS 或 AMD GPUs(ROCm),请转到
mac
分支。下载该仓库为 zip 文件,并将其解压缩到custom_nodes
文件夹中。
VLM 节点
利用 llama-cpp-python
集成 LLaVa 模型。您可以使用 LLaVa 模型以 GGUF 格式加载和使用任何 VLM 节点。
您需要从这些仓库下载类似于 ggml-model-q4_k.gguf
的模型以及类似于 mmproj-model-f16.gguf
的剪辑投影仪(在文件和版本中)。
需要 python=>3.9
版本。
将所有文件放置在 models/LLavacheckpoints
文件夹内。
请注意,每个 模型的剪辑投影仪 是不同的!
结构化输出
通过仅使用 prompt 工程获取结构化输出可能非常具有挑战性。
我为 VLM 节点添加了结构化输出节点。
现在,您可以可靠地获得答案。
您可以提取实体、数字,按给定类别分类提示,并生成一个特定提示。这些只是一些例子。
您可以为字段添加附加描述并选择您希望返回的属性。
图像转音乐
利用 VLM、LLM 和 AudioLDM-2 将图像转化为音乐。
使用 SaveAudioNode 将音乐保存到 output
文件夹中。
它将自动下载必要的文件到 models/LLavacheckpoints/files_for_audioldm2
文件夹中。
https://github.com/gokayfem/ComfyUI_VLM_nodes/assets/88277926/2c5bdcde-d637-49ad-b317-14ac0a12f7df
LLM 转音乐
利用 Chat Musician,这是一个集成了固有音乐能力的开源 LLM。
ChatMusician 演示页面
您可以从此演示页面尝试提示。
下载 GGUF 文件
ChatMusician GGUF 文件
推荐 ChatMusician.Q5_K_M.gguf 或 ChatMusician.Q5_K_S.gguf
重大的警告:它 不能完美运行,如果出现错误,请接受错误并 再次使用相同设置提示!!
https://github.com/gokayfem/ComfyUI_VLM_nodes/assets/88277926/7f22d4f2-b998-402e-88c8-c382a730d624
InternLM-XComposer2-VL 节点
利用 AutoGPTQ
集成 InternLM-XComposer2-VL 模型。它将自动下载所需文件到 models/LLavacheckpoints/files_for_internlm
文件夹中。
这是视觉感知的最佳模型之一。
重要注意事项:该模型很重。
自动提示生成和建议节点
Get Keyword 节点:它可以从 LLava 输出中提取关键字。
LLava PromptGenerator 节点:它可以根据描述或关键字创建提示(输入提示可以直接是 Get Keyword 或 LLava 输出)。
Suggester 节点:它可以基于原始提示生成 5 个不同的提示,选项中使用一致性或随机提示。
- 最佳效果为 LLava 1.5 和 1.6。
调整 温度
以获得更具创造力或一致的结果。温度越高,结果越有创造力。
如果想深入了解 LLM 设置
输出是 JSON 形状的文本,您可以使用 JsonToText 节点将其作为文本查看。
您可以使用 ViewText 节点查看任何字符串输出。
您可以使用 SimpleText 节点设置任何字符串输入。
利用 llama-cpp-agents
获取结构化输出。
从文本节点生成 LLM 提示
LLM PromptGenerator 节点:
Qwen 1.8B 稳定扩散提示
IF 提示 MKR
这 LLM 目前是进行提示生成的最佳选择。
LLMSampler 节点:您可以与任何 gguf 格式的 LLM 聊天,也可以将 LLava 模型用作 LLM。
API PromptGenerator 节点:您可以使用 ChatGPT 和 DeepSeek API 生成提示。https://platform.deepseek.com/ 提供 10m 免费 token。
- ChatGPT-4
- ChatGPT-3.5
- DeepSeek 您也可以用它们进行简单的聊天,节点中有这个选项。
UForm-Gen2 Qwen 节点
UForm-Gen2 是一个极其快速的小型生成视觉语言模型,主要用于图像描述和视觉问答。
UForm-Gen2 Qwen
它将自动下载必要的文件到 models/LLavacheckpoints/files_for_uform_gen2_qwen
文件夹中。
Kosmos-2 节点
Kosmos-2:将多模态大语言模型连接到世界。
Kosmos-2
它将自动下载必要的文件到 models/LLavacheckpoints/files_for_kosmos2
文件夹中。
moondream1 和 moondream2 节点
该节点设计用于与 Moondream 模型配合使用,这是一种由 @vikhyatk 利用 SigLIP、Phi-1.5 和 LLaVa 训练数据集构建的小型强大视觉语言模型。
该模型拥有 16 亿参数,仅供研究用途,不允许商业使用。
moondream2 是一个小型视觉语言模型,设计用于在边缘设备上高效运行。
它将自动下载必要的文件到 models/LLavacheckpoints/files_for_moondream
和 models/LLavacheckpoints/files_for_moondream2
文件夹中。
JoyTag 节点
@fpgamine 的 JoyTag 是一款专注于性积极和包容性的先进 AI 视觉模型,用于为图像打标签。
它使用 Danbooru 标签模式,但适用于从手绘到摄影的一系列图像。
它将自动下载必要的文件到 models/LLavacheckpoints/files_for_joytagger
文件夹中。