DALL-E Playground 项目介绍
项目概述
DALL-E Playground,现更名为 Text-to-Image Playground,是一个专为文本到图像生成爱好者打造的实验平台。该项目目前使用了先进的图像生成技术——Stable Diffusion V2,旨在提供一个高效和易于使用的环境让用户探究文本到图像的转换。
项目背景
DALL-E Playground 的最初版本使用的是 DALL-E Mini,然而随着 Stable Diffusion V2 的发布及其易于实现的特性,开发团队决定替换原有技术。Stable Diffusion 提供了更高的图像质量和更快的处理速度,使得用户体验得到了显著提升。
快速使用指南
用户可以通过 GitHub 提供的前端界面快速体验 DALL-E Playground。以下是使用步骤:
- 通过 Google Colab 运行 DALL-E 后端。
- 复制最终执行单元格输出的 URL,查找包含
Your url is:
的行。 - 等待后端完全加载,这大约需要 2 分钟。加载完成后,会显示
--> Image generation server is up and running!
。 - 打开浏览器访问
https://saharmor.github.io/dalle-playground/?backendUrl=https://XXXX.trycloudflare.com
,其中backendUrl
为上一步获得的 URL。
注意:虽然可以在 Google Colab 的免费版本上运行后端,但生成超过两张图片可能会导致前端超时,建议升级到 Colab Pro 或使用更强大的机器运行后端。
本地开发
如果有兴趣在本地开发和运行 DALL-E Playground,可按照以下步骤操作:
- 克隆或派生此存储库。
- 创建虚拟环境,进入
backend
目录并使用python3 -m venv ENV_NAME
。 - 启动虚拟环境
source venv/bin/activate
。 - 安装依赖
pip install -r requirements.txt
。 - 确保已安装 PyTorch 及其依赖(安装指南)。
- 运行 Web 服务器
python3 app.py --port 8080
(端口号可自行更改)。 - 在另一个终端中,安装前端模块
cd interface && npm install
,然后运行npm start
。 - 复制第五步中的后端 URL,并粘贴到 Web 应用程序的后端 URL 输入框中。
使用 Windows WSL2 的本地开发
在 Windows WSL2 环境下,有一些 GPU 支持方面的特定问题。以下是针对这一环境的特别说明:
- 确保 Windows 上安装了最新的 NVIDIA GeForce Game Ready 或 NVIDIA RTX Quadro 驱动。
- 在 Linux 中安装 Nvidia CUDA 工具包,WSL 说明。
- 安装 Nvidia CuDNN 库:安装指南。
- 从源码编译并安装
jaxlib
和jax
,启用 CUDA 编译python3 build/build.py --enable_cuda
,相关指南。 - 编译
jaxlib
时可能遇到配置错误,可参考此处解决:https://github.com/google/jax/issues/11068。 - 然后按照上文的本地开发步骤继续操作。
需要注意的是,WSL2 的安装相对简单,但可能需要安装额外的软件包如 npm
和 python3-pip
等。
使用 Docker-compose 的本地开发
- 确保安装了 docker 和 The NVIDIA Container Toolkit。
- 克隆或派生此存储库。
- 运行
docker-compose up
启动服务器,若希望后台运行可添加-d
。 - 首次运行可能需要下载镜像、模型和依赖,但这些内容只需下载一次。
- 拷贝后端 URL,并粘贴入 Web 应用程序内的后端 URL 输入框。
网页应用程序可通过 http://localhost:3000/dalle-playground
访问。
鸣谢
DALL-E Playground 的初始代码基于 @borisdayma 开发的 DALL-E Mini。