Project Icon

PhotoMaker

AI逼真人像照片定制生成工具

PhotoMaker是一款创新的AI图像生成工具,能在几秒内定制生成高度逼真的人像照片。它保持了优秀的身份保真度,同时兼顾多样性和高质量输出。作为适配器,PhotoMaker可与其他基础模型和LoRA模块无缝协作。该工具支持真实照片和风格化生成,为创作提供灵活空间。PhotoMaker操作简单,无需额外训练即可实现个性化,为AI驱动的图像生成领域带来积极影响。

PhotoMaker: 通过堆叠ID嵌入定制真实人物照片 论文页面

[论文]   [项目页面]   [模型卡片]

[💥新 🤗 演示 (PhotoMaker V2)]   [🤗 演示 (真实风格)]   [🤗 演示 (艺术风格)]

[Replicate演示 (真实风格)]   [Replicate演示 (艺术风格)]   [Jittor版本]

PhotoMaker-V2HunyuanDiT团队支持。

🥳 我们发布了 PhotoMaker V2。请参阅比较查看PhotoMaker V1、PhotoMaker V2、IP-Adapter-FaceID-plus-V2和InstantID之间的对比。观看此视频了解如何使用我们的演示。关于PhotoMaker V2 ComfyUI节点,请参考相关资源


🌠 主要特点:

  1. 仅需数秒即可快速定制,无需额外的LoRA训练。
  2. 确保出色的ID保真度,提供多样性,承诺文本可控性和高质量生成。
  3. 可作为适配器与社区中的其他基础模型和LoRA模块协作。

TencentARC%2FPhotoMaker | Trendshift

❗❗ 注意:如果有任何基于PhotoMaker的资源和应用,请在讨论区留言,我们将在README文件的相关资源部分列出。 目前我们已知ReplicateWindowsComfyUIWebUI的实现。感谢大家!

photomaker_demo_fast

🚩 新特性/更新

  • ✅ 2024年7月22日。💥 我们发布了PhotoMaker V2,具有改进的ID保真度。同时,它仍保持了PhotoMaker V1提供的生成质量、可编辑性和与任何插件的兼容性。我们还提供了与ControlNetT2I-AdapterIP-Adapter集成的脚本,以提供出色的控制能力。用户可以进一步定制脚本进行升级,例如结合LCM加速或集成IP-Adapter-FaceID或InstantID以进一步提高ID保真度。我们将很快发布PhotoMaker V2的技术报告。请参阅此文档快速预览。
  • ✅ 2024年1月20日。重要提示:对于不支持bfloat16的GPU,请将这一行改为torch_dtype = torch.float16,速度将大幅提升(V100上从之前的1分钟/图提升到14秒/图)。PhotoMaker的最低GPU内存要求为11G(请参考此链接以节省GPU内存)。
  • ✅ 2024年1月15日。我们发布了PhotoMaker。

🔥 示例

真实风格生成

风格化生成

注意:只需更改基础模型并添加 LoRA 模块以获得更好的风格化效果

🔧 依赖和安装

conda create --name photomaker python=3.10
conda activate photomaker
pip install -U pip

# 安装依赖
pip install -r requirements.txt

# 安装 photomaker
pip install git+https://github.com/TencentARC/PhotoMaker.git

然后你可以运行以下命令来使用它

from photomaker import PhotoMakerStableDiffusionXLPipeline

⏬ 下载模型

模型将通过以下两行代码自动下载:

from huggingface_hub import hf_hub_download
photomaker_path = hf_hub_download(repo_id="TencentARC/PhotoMaker", filename="photomaker-v1.bin", repo_type="model")

你也可以选择从这个 链接 手动下载。

💻 如何测试

diffusers 一样使用

  • 依赖
import torch
import os
from diffusers.utils import load_image
from diffusers import EulerDiscreteScheduler
from photomaker import PhotoMakerStableDiffusionXLPipeline

### 加载基础模型
pipe = PhotoMakerStableDiffusionXLPipeline.from_pretrained(
    base_model_path,  # 可以更改为基于 SDXL 的任何基础模型
    torch_dtype=torch.bfloat16, 
    use_safetensors=True, 
    variant="fp16"
).to(device)

### 加载 PhotoMaker 检查点
pipe.load_photomaker_adapter(
    os.path.dirname(photomaker_path),
    subfolder="",
    weight_name=os.path.basename(photomaker_path),
    trigger_word="img"  # 定义触发词
)     

pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config)

### 也可以与其他 LoRA 模块配合使用
# pipe.load_lora_weights(os.path.dirname(lora_path), weight_name=lora_model_name, adapter_name="xl_more_art-full")
# pipe.set_adapters(["photomaker", "xl_more_art-full"], adapter_weights=[1.0, 0.5])

pipe.fuse_lora()
  • 输入 ID 图像
### 定义输入 ID 图像
input_folder_name = './examples/newton_man'
image_basename_list = os.listdir(input_folder_name)
image_path_list = sorted([os.path.join(input_folder_name, basename) for basename in image_basename_list])

input_id_images = []
for image_path in image_path_list:
    input_id_images.append(load_image(image_path))

  • 生成
# 注意,触发词 `img` 必须跟在类别词后面以实现个性化
prompt = "一张男子的半身肖像 img 戴着钢铁侠套装的太阳镜,最佳品质"
negative_prompt = "(不对称、最差质量、低质量、插图、3D、2D、绘画、卡通、素描)、张嘴、灰度"
generator = torch.Generator(device=device).manual_seed(42)
images = pipe(
    prompt=prompt,
    input_id_images=input_id_images,
    negative_prompt=negative_prompt,
    num_images_per_prompt=1,
    num_inference_steps=num_steps,
    start_merge_step=10,
    generator=generator,
).images[0]
gen_images.save('out_photomaker.png')

启动本地gradio演示

运行以下命令:

python gradio_demo/app.py

你可以在这个文件中自定义此脚本。

如果你想在MAC上运行它,你应该按照这个说明操作,然后运行app.py。

使用技巧:

  • 上传更多要定制的人物照片以提高ID保真度。如果输入的是亚洲人脸,可以考虑在类别词前加"Asian",例如"Asian woman img"
  • 在风格化时,生成的脸看起来太真实吗?将风格强度调整到30-50,数字越大,ID保真度越低,但风格化能力会更好。你也可以尝试其他具有良好风格化效果的基础模型或LoRA。
  • 减少生成的图像数量和采样步骤以提高速度。但请记住,减少采样步骤可能会影响ID保真度。

相关资源

PhotoMaker的Replicate演示:

  1. 演示链接,在Replicate上运行PhotoMaker,由@yorickvP@jd7h提供。
  2. 演示链接(风格版本)

PhotoMaker的WebUI版本:

  1. stable-diffusion-webui-forgehttps://github.com/lllyasviel/stable-diffusion-webui-forge@Lvmin Zhang提供
  2. Fooocus AppFooocus-inswapper@machineminded提供

PhotoMaker的Windows版本:

  1. bmaltais/PhotoMaker@bmaltais提供,易于在Windows上部署PhotoMaker。描述可以在这个链接中找到。
  2. sdbds/PhotoMaker-for-windows@sdbds提供。

ComfyUI:

  1. 🔥 ComfyUI的官方实现https://github.com/comfyanonymous/ComfyUI/commit/d1533d9c0f1dde192f738ef1b745b15f49f41e02
  2. https://github.com/ZHO-ZHO-ZHO/ComfyUI-PhotoMaker
  3. https://github.com/StartHua/Comfyui-Mine-PhotoMaker
  4. https://github.com/shiimizu/ComfyUI-PhotoMaker

ComfyUI(用于PhotoMaker V2):

  1. https://github.com/shiimizu/ComfyUI-PhotoMaker-Plus
  2. https://github.com/edwios/ComfyUI-PhotoMakerV2-ZHO/tree/main
  3. https://openart.ai/workflows/shalacai/photomakerv2/fttT4ztRM85JxBJ2eUyr

纯C/C++/CUDA版本的PhotoMaker:

  1. stable-diffusion.cpp@bssrdf提供。

其他应用/网页演示

  1. Wisemodel 始智(在中国易于使用) https://wisemodel.cn/space/gradio/photomaker
  2. OpenXLab(在中国易于使用)https://openxlab.org.cn/apps/detail/camenduru/PhotoMaker 在OpenXLab中打开@camenduru提供。
  3. Colabhttps://github.com/camenduru/PhotoMaker-colab@camenduru提供
  4. Monster APIhttps://monsterapi.ai/playground?model=photo-maker
  5. Pinokiohttps://pinokio.computer/item?uri=https://github.com/cocktailpeanutlabs/photomaker

45行Gradio演示

@Gradio提供

🤗 致谢

免责声明

本项目致力于积极影响AI驱动的图像生成领域。用户可以自由使用此工具创建图像,但需遵守当地法律并负责任地使用。开发者不对用户可能的滥用承担任何责任。

BibTeX

如果您发现PhotoMaker对您的研究和应用有用,请使用以下BibTeX进行引用:

@inproceedings{li2023photomaker,
  title={PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding},
  author={Li, Zhen and Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Cheng, Ming-Ming and Shan, Ying},
  booktitle={IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号