ai4artists

人工智能和艺术交汇处的资源。主要是工具和教程，但也包括一些鼓舞人心的人物和地方！

想了解更广泛的创意编码工具资源（你可能希望与这里列出的一起使用），请查看terkelg/awesome-creative-coding或thatcreativecode.page。关于人工智能和深度学习的资源，请查看ChristosChristofidis/awesome-deep-learning和https://github.com/dair-ai。

内容

学习
- 课程
- 视频
- 书籍
- 教程和博客
论文/方法
工具
数据集
产品/应用
艺术家
机构/地点
相关列表

加粗条目表示我最喜欢的该部分/子部分资源（如果必须选择一个资源）。此外，每个子部分通常根据内容的特异性进行排序（最一般的列在最前面）。

学习

课程

一般深度学习

深度生成建模

创意编码和新媒体

视频

书籍

教程和博客

深度学习

生成艺术

论文/方法

扩散模型（和图像生成）

SDEdit：带有随机微分方程的引导图像合成和编辑：在稳定扩散之前的论文，描述了一种使用扩散模型进行图像合成和编辑的方法。
GLIDE：朝向使用文本引导扩散模型实现摄影级图像生成和编辑
使用潜在扩散模型进行高分辨率图像合成：介绍了稳定扩散的原始论文。
使用跨注意力控制进行Prompt-to-Prompt图像编辑：通过编辑最初的提示词来编辑稳定扩散输出。
一个图像价值一个单词：使用文本倒置实现个性化文本到图像生成：类似于Prompt-to-Prompt，但改为采用输入图像和文本描述。有点像风格转移...但使用稳定扩散。
DreamBooth：调整文本生成的扩散模型以实现主体驱动生成：类似于文本倒置，但专注于操作基于对象的图像（例如_这个东西/人/etc.但是_在水下）。
使用扩散模型进行新视图合成
AudioGen：文本引导的音频生成
视频生成：无需文本-视频数据的文本到视频生成
Imagic：使用扩散模型进行基于文本的真实图像编辑
MDM：人类运动扩散模型
软扩散：泛用腐败匹配分数
多概念自定义扩散：类似于DreamBooth，但能够合成多个概念。
eDiff-I：使用专家去噪器集群的文本到图像扩散模型
详细阐明扩散模型生成设计空间（EDM）
使用去噪扩散GAN解决生成学习三难困境
Imagen视频：使用扩散模型的高清视频生成

神经辐射场（和类似NeRF的事物）

重访运动结构：稀疏建模先行工作（对NeRF仍有用）
像素级视点选择用于非结构化多视点立体：密集建模先行工作（NeRF有点取代了这个）
DeepSDF：学习连续符号距离函数进行形状表示
延迟神经渲染：使用神经纹理的图像合成
神经体积：从图像学习可渲染的动态体积
⭐️ NeRF：表示场景为神经辐射场进行视点合成：开启这一切的论文...
的不受约束的神经辐射场：野外NeRF（MVS的替代方案）
Nerfies：可变形神经辐射场：从随手拍摄的照片和视频（例如手机拍摄）生成逼真的NeRF
Mip-NeRF：用于抗锯齿的多尺度表示：更好更快更强的NeRF
深度监督的NeRF：更少视点、更快训练: 通过利用深度信息更快地训练NeRF模型
使用多分辨率哈希编码的即时神经图形原语: 使NeRF训练非常快的缓存
纯CLIP指导的体素网格NeRF模型: 使用CLIP的文本到3D
NeRF-SLAM：用于机器人和车的实时稠密单目SLAM
nerf2nerf：神经辐射场配对配准: 预训练的NeRF
重建电视剧中的3D人物和环境
ClimateNeRF:适用于极端气候合成的基于物理的神经渲染
逼真的一拍网格化头像
神经点焦散进行新视点反射合成
从近重复照片中提取3D时刻
NeRDi: 使用语言引导扩散作为通用图像先验的单视图NeRF合成

3D和点云

无条件图像合成

条件图像合成（和逆问题）

GAN反演（和编辑）

潜在空间解释

图像抠图

工具

生成建模

NVIDIA Imaginaire: 2D图像合成库
NVIDIA Omniverse: 用于创建和操作元宇宙应用程序的平台
mmgeneration
Modelverse: 用于深度生成模型的基于内容搜索
PaddleGAN

创意机器学习

深度学习框架

运行时/部署

文本到图像

⭐️ 稳定扩散（Stable Diffusion)
Imagen
DALLE 2
VQGAN+CLIP
Parti
Muse: 通过蒙版生成转换器进行文本到图像生成: 比扩散或自回归文本到图像模型更高效，使用蒙版图像建模和转换器

稳定扩散（SD）

梦想工作室: 官方 Stability AI 云托管服务。
⭐️ 稳定扩散 Web UI: 一个用户友好的SD界面，带有额外的功能以简化常见的工作流。
AI 渲染（Blender）: 使用文本提示在 Blender 中渲染场景。
梦想纹理（Blender）: 插件，用于使用SD渲染纹理、参考图像和背景。
lexica.art - SD提示搜索。
koi（Krita）: 用于 Krita 的SD插件，用于img2img生成。
Alpaca（Photoshop）: Photoshop 插件 (beta)。
克里斯蒂安·坎特雷尔的插件（Photoshop）: 另一个Photoshop插件。
稳定扩散工作室: 专注于动画的SD前端。
DeepSpeed-MII: 用于多种（20,000以上）模型/任务的低延迟和高吞吐量推理，包括SD。

神经辐射场

创意编程

框架

⭐️ Processing (Java) 和 p5.js (Javascript)
开源框架（C++）
Cinder (C++)
nannou (Rust)

可视化编程语言

数据集

许可宽松/开放访问

LAION 数据集: 各种大规模图像-文本对数据集（主要用于训练开源 Stable Diffusion 模型）。
LAION-Face
Unsplash 图片
Pixabay
Pexels
Open Images：Open Images 是一个包含约 900 万张图像的数据集，带有图像级标签、对象边界框、对象分割掩码、视觉关系和本地化叙述。
Mozilla Common Voice：包含 17,127 小时经过验证的转录语音，覆盖 104 种语言。此外，数据集中的许多录音时长还包括人口统计元数据，如年龄、性别和口音，可以帮助提高语音识别引擎的准确性。
Flickr Commons：Flickr Commons 是来自世界各地 100 多个文化机构的独特历史摄影收藏，所有这些照片都没有已知的版权限制。
互联网档案馆：互联网档案馆是一家非营利性图书馆，藏有数百万本免费书籍、电影、软件、音乐、网站等。
维基媒体共享资源：一个包含 106,323,506 个可自由使用的媒体文件的集合，任何人都可以贡献。
Prelinger Archives
Getty 图书馆开放内容计划：使来自 Getty 藏品的图像可自由用于研究、教学和享受。
史密森尼开放获取
公共领域评论：专注于现在进入公共领域的作品，这些丰富的公共领域材料可以供所有人自由享受、分享和利用。
国会图书馆
生物多样性遗产图书馆
大都会博物馆开放获取
国家美术馆开放获取
芝加哥艺术学院开放获取
纽约公共图书馆公共领域藏品
汉堡应用艺术与工艺博物馆 Steintorplatz
FairFace
概念字幕
快画！
开放图像
视觉问答
TensorFlow Flowers
斯坦福在线产品数据集
DeepMind 3D 图形
PASS：一个无人工干预的自监督预训练的 ImageNet 替代品，可以用于高质量的预训练，同时显著降低隐私问题。