Stable Diffusion的TensorRT扩展
此扩展能够为NVIDIA RTX GPU上的Stable Diffusion提供最佳性能。 在使用扩展之前,您需要安装扩展并生成优化的引擎。请按照以下说明进行设置。 支持Stable Diffusion 1.5、2.1、SDXL、SDXL Turbo和LCM。对于SDXL和SDXL Turbo,由于其规模和计算强度,我们建议使用12 GB或更多显存的GPU以获得最佳性能。
安装
以下是Automatic1111的示例安装说明:
- 运行webui.bat
- 选择扩展标签页,点击"从URL安装"
- 复制此仓库的链接并粘贴到"扩展的git仓库URL"中
- 点击安装
使用方法
- 点击"生成默认引擎"按钮。根据您的GPU,这一步可能需要2-10分钟。您可以为其他组合生成引擎。
- 转到设置 → 用户界面 → 快速设置列表,添加sd_unet。应用这些设置,然后重新加载UI。
- 回到主界面,如果尚未选择,请从页面顶部的sd_unet下拉菜单中选择"自动"。
- 现在您可以开始生成由TRT加速的图像了。如果需要创建更多引擎,请转到TensorRT标签页。
祝您使用愉快!
LoRA
要使用LoRA / LyCORIS检查点,首先需要将它们转换为TensorRT格式。这可以在TensorRT扩展的导出LoRA标签页中完成。
- 从下拉菜单中选择一个LoRA检查点。
- 导出。(这不会生成引擎,仅需约20秒转换权重)
- 您可以像往常一样使用导出的LoRA,通过提示嵌入来使用。
更多信息
TensorRT使用针对特定分辨率和批量大小优化的引擎。您可以根据需要生成任意数量的优化引擎。类型:
- "导出默认引擎"选项为Stable Diffusion 1.5和2.1添加了对512 x 512到768x768分辨率的支持,批量大小为1到4。对于SDXL,此选项生成支持1024 x 1024分辨率和批量大小为1的引擎。
- 静态引擎支持单一特定输出分辨率和批量大小。
- 动态引擎支持一系列分辨率和批量大小,但会略微影响性能。更宽的范围将使用更多显存。
- 首次为检查点生成引擎需要较长时间。为同一检查点生成的其他引擎将快得多。
每个预设都可以通过"高级设置"选项进行调整。更详细的说明可以在这里找到。
常见问题/限制
高分辨率修复:如果在Automatic1111中使用hires.fix选项,您必须构建匹配起始和结束分辨率的引擎。例如,如果初始大小为512 x 512,hires.fix将其放大到1024 x 1024,您必须生成一个覆盖整个范围的单一动态引擎。
分辨率:生成图像时,分辨率需要是64的倍数。这也适用于hires.fix,要求低分辨率和高分辨率都能被64整除。
失效的CMD参数:
medvram
和lowvram
在编译引擎时可能会导致问题。api
可能导致model.json
无法更新,导致编译后SD Unets不出现。- 安装失败或TensorRT标签页未出现在UI中:这很可能是由于安装失败导致的。要手动解决此问题,请参考这个指南。
系统要求
驱动程序:
Linux: >= 450.80.02
- Windows: >= 452.39
我们始终建议保持驱动程序为最新版本,以获得系统范围的性能改进。