👋 您好
多模态大师让您对大型多模态模型有更多控制,以获得您想要的输出。通过更有效的提示策略,您可以让多模态模型完成您不知道(或不认为)可能的任务。想知道它是如何工作的吗?试试我们的HF空间!
💻 安装
⚠️ 我们的包已更名为maestro
。请在3.11>=Python>=3.8环境中安装该包。
pip install maestro
🔌 API
🚧 项目仍在建设中。重新设计的API即将推出。
🧑🍳 提示技巧手册
🚀 示例
找到狗。
>>> 狗在图像中央显著位置,标记为[9]。
👉 阅读更多
-
加载图像
import cv2 image = cv2.imread("...")
-
创建和优化标记
import maestro generator = maestro.SegmentAnythingMarkGenerator(device='cuda') marks = generator.generate(image=image) marks = maestro.refine_marks(marks=marks)
-
可视化标记
mark_visualizer = maestro.MarkVisualizer() marked_image = mark_visualizer.visualize(image=image, marks=marks)
-
提示
prompt = "找到狗。" response = maestro.prompt_image(api_key=api_key, image=marked_image, prompt=prompt)
>>> "狗在图像中央显著位置,标记为[9]。"
-
提取相关标记
masks = maestro.extract_relevant_masks(text=response, detections=refined_marks)
>>> {'6': array([ ... [False, False, False, ..., False, False, False], ... [False, False, False, ..., False, False, False], ... [False, False, False, ..., False, False, False], ... ..., ... [ True, True, True, ..., False, False, False], ... [ True, True, True, ..., False, False, False], ... [ True, True, True, ..., False, False, False]]) ... }
🚧 路线图
- 重写
maestro
API。 - 更新HF空间。
- 文档页面。
- 添加GroundingDINO提示策略。
- CovVLM演示。
- Qwen-VL演示。
💜 致谢
- Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V,作者:Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao。
- The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), 作者:Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
🦸 贡献
我们非常欢迎您帮助我们使这个仓库变得更好!如果您发现任何错误,或者有任何改进建议,请随时开启一个 issue或提交一个 pull request。