人工智能和艺术交汇处的资源。主要是工具和教程,但也包括一些鼓舞人心的人物和地方!
想了解更广泛的创意编码工具资源(你可能希望与这里列出的一起使用),请查看terkelg/awesome-creative-coding或thatcreativecode.page。关于人工智能和深度学习的资源,请查看ChristosChristofidis/awesome-deep-learning和https://github.com/dair-ai。
内容
加粗 条目表示我最喜欢的该部分/子部分资源(如果必须选择一个资源)。此外,每个子部分通常根据内容的特异性进行排序(最一般的列在最前面)。
学习
课程
一般深度学习
- 实用深度学习(fast.ai)
- 深度学习(NYU)
- 深度学习导论(CMU)
- ⭐️ 计算机视觉深度学习(UMich)
- 计算机视觉深度学习(斯坦福 CS231n)
- 深度学习自然语言处理(斯坦福 CS224n)
深度生成建模
- 深度生成模型(斯坦福)
- 无监督学习的深度(UC Berkeley)
- 可微推理和生成模型(多伦多)
- ⭐️ 基于学习的图像合成(CMU)
- 离散潜在结构学习(多伦多)
- 从深度学习基础到稳定扩散(fast.ai)
创意编码和新媒体
- ⭐️ 艺术、美学与创造力的深度学习(MIT)
- 网页上的机器学习(ITP/NYU)
- 艺术与机器学习(CMU)
- 新媒体装置:学习的艺术(CMU)
- 计算媒体导论(ITP/NYU)
视频
- ⭐️ AI解释:创造任意图片的AI(Vox)
- 我创建了一个神经网络并尝试教它识别涂鸦(Sebastian Lague)
- 神经网络系列(3Blue1Brown)
- JavaScript中的初学者机器学习指南(Coding Train)
- 两分钟论文
书籍
- ⭐️ 深入浅出深度学习(Zhang, Lipton, Li, 和 Smola)
- 深度学习(Goodfellow, Bengio, 和 Courville)
- 计算机视觉:算法与应用(Szeliski)
- 游戏中的程序化内容生成(Shaker, Togelius, 和 Nelson)
- 生成设计(Benedikt Groß)
教程和博客
深度学习
- ⭐️ VQGAN-CLIP:自然语言引导下的开放领域图像生成与编辑(Crowson 和 Biderman)
- 深度生成模型教程(IJCAI-ECAI 2018)
- GAN教程(CVPR 2018)
- Lil'Log(Lilian Weng)
- Distill(暂停中)
生成艺术
论文/方法
扩散模型(和图像生成)
- SDEdit:带有随机微分方程的引导图像合成和编辑:在稳定扩散之前的论文,描述了一种使用扩散模型进行图像合成和编辑的方法。
- GLIDE:朝向使用文本引导扩散模型实现摄影级图像生成和编辑
- 使用潜在扩散模型进行高分辨率图像合成:介绍了稳定扩散的原始论文。
- 使用跨注意力控制进行Prompt-to-Prompt图像编辑:通过编辑最初的提示词来编辑稳定扩散输出。
- 一个图像价值一个单词:使用文本倒置实现个性化文本到图像生成:类似于Prompt-to-Prompt,但改为采用输入图像和文本描述。有点像风格转移...但使用稳定扩散。
- DreamBooth:调整文本生成的扩散模型以实现主体驱动生成:类似于文本倒置,但专注于操作基于对象的图像(例如_这个东西/人/etc.但是_在水下)。
- 使用扩散模型进行新视图合成
- AudioGen:文本引导的音频生成
- 视频生成:无需文本-视频数据的文本到视频生成
- Imagic:使用扩散模型进行基于文本的真实图像编辑
- MDM:人类运动扩散模型
- 软扩散:泛用腐败匹配分数
- 多概念自定义扩散:类似于DreamBooth,但能够合成多个概念。
- eDiff-I:使用专家去噪器集群的文本到图像扩散模型
- 详细阐明扩散模型生成设计空间(EDM)
- 使用去噪扩散GAN解决生成学习三难困境
- Imagen视频:使用扩散模型的高清视频生成
神经辐射场(和类似NeRF的事物)
- 重访运动结构:稀疏建模先行工作(对NeRF仍有用)
- 像素级视点选择用于非结构化多视点立体:密集建模先行工作(NeRF有点取代了这个)
- DeepSDF:学习连续符号距离函数进行形状表示
- 延迟神经渲染:使用神经纹理的图像合成
- 神经体积:从图像学习可渲染的动态体积
- ⭐️ NeRF:表示场景为神经辐射场进行视点合成:开启这一切的论文...
- 的不受约束的神经辐射场:野外NeRF(MVS的替代方案)
- Nerfies:可变形神经辐射场:从随手拍摄的照片和视频(例如手机拍摄)生成逼真的NeRF
- Mip-NeRF:用于抗锯齿的多尺度表示:更好更快更强的NeRF
- 深度监督的NeRF:更少视点、更快训练: 通过利用深度信息更快地训练NeRF模型
- 使用多分辨率哈希编码的即时神经图形原语: 使NeRF训练非常快的缓存
- 纯CLIP指导的体素网格NeRF模型: 使用CLIP的文本到3D
- NeRF-SLAM:用于机器人和车的实时稠密单目SLAM
- nerf2nerf:神经辐射场配对配准: 预训练的NeRF
- 重建电视剧中的3D人物和环境
- ClimateNeRF:适用于极端气候合成的基于物理的神经渲染
- 逼真的一拍网格化头像
- 神经点焦散进行新视点反射合成
- 从近重复照片中提取3D时刻
- NeRDi: 使用语言引导扩散作为通用图像先验的单视图NeRF合成
3D和点云
- DreamFusion:使用2D扩散进行文本到3D(Google)
- ULIP:学习统一语言、图像和点云表征以理解3D(Salesforce)
- 从图像提取三角形3D模型,材质和照明(NVIDIA)
- GET3D:从图像学习高质量的3D纹理形状生成模型(NVIDIA)
- 使用三平面扩散进行3D神经场生成
- 🎠 MagicPony:在野外学习有关节的3D动物
- ObjectStitch: 生成对象复合(Adobe)
- LADIS: 3D形状编辑中的语言解缠绕(Snap)
- Rodin: 通过扩散模型雕刻3D数字头像生成模型(Microsoft)
- SDFusion: 多模式3D形状补全,重建和生成(Snap)
- DiffRF: 渲染引导的3D辐射场扩散(Meta)
- 使用扩散模型进行新视点合成(Google)
- ⭐️ Magic3D: 高分辨率文本到3D内容创建(NVIDIA)
无条件图像合成
- 采样生成网络
- 神经离散表示学习 (VQVAE)
- 通过渐进增长的GAN提高质量、稳定性和变异性
- 基于风格的生成对抗网络生成器架构 (StyleGAN)
- ⭐️ 分析和提高StyleGAN的图像质量 (StyleGAN2)
- 利用有限数据训练生成对抗网络 (StyleGAN2-ADA)
- 无别名生成对抗网络 (StyleGAN3)
- 使用VQ-VAE-2生成多样化高保真图像
- 驯服高分辨率图像合成的转换器 (VQGAN)
- 扩散模型在图像合成上的胜过GAN
- StyleNAT: 给每个头一个新视角
- StyleGAN-XL: 将StyleGAN扩展到大型多样化数据集
条件图像合成(和逆问题)
- 利用条件对抗网络进行图像到图像翻译 (pix2pix)
- 使用循环一致性对抗网络进行无配对的图像到图像翻译 (CycleGAN)
- 使用条件GAN进行高分辨率图像合成和语义操纵 (pix2pixHD)
- 通过添加、操纵或删除对象对场景进行语义编辑 (SESAME)
- 使用空间自适应归一化进行语义图像合成 (SPADE)
- 你只需要对抗监督进行语义图像合成 (OASIS)
- 风格编码:一种用于图像到图像翻译的StyleGAN编码器
- 使用专家产品GANs进行多模式条件图像合成
- Palette: 图像到图像扩散模型
- 素描引导的文本到图像扩散模型
- HRDA: 上下文感知高分辨率领域自适应语义分割
- PiPa:像素和补丁级自监督学习用于领域自适应语义分割
- MIC: 用于上下文增强领域自适应的蒙版图像一致性
- 预训练是你所需的一切用于图像到图像翻译 (PITI)
GAN反演(和编辑)
- 在自然图像流形上生成视觉操纵 (iGAN)
- 域内GAN反演用于真实图像编辑
- Image2StyleGAN:如何嵌入图像到StyleGAN潜在空间?
- 设计一个StyleGAN图像操纵的编码器
- 用于真实图像潜在编辑的关键调整
- ⭐️ HyperStyle: 通过HyperNetworks进行StyleGAN反演用于真实图像编辑
- StyleCLIP:基于文本驱动的StyleGAN图像操纵
- 用于图像属性编辑的高保真GAN反演
- 用于深度图像操纵的交换自动编码器
- 绘制你自己的GAN
- 重写GAN的几何规则
- 用于交互式图像合成和编辑的Anycost GANs
- 第三次是最幸运的吗?使用StyleGAN3编辑图像和视频
潜在空间解释
- ⭐️ 发现可解释的GAN控制(GANspace)
- 解释GANs的潜在空间用于语义脸部编辑
- GAN解剖:可视化和理解生成对抗网络
- 无监督提取StyleGAN编辑方向(CLIP2StyleGAN)
- 看到GAN无法生成的东西
图像抠图
- 深度图像抠图
- 背景抠图:全世界是你的绿屏
- 鲁棒视频抠图
- 语义图像抠图
- 隐私保护人像抠图
- 深度自动自然图像抠图
- MatteFormer
- MODNet:通过目标分解进行实时无三分图人像抠图
- ⭐️ 通过语义引导的鲁棒人像抠图
工具
生成建模
- NVIDIA Imaginaire: 2D图像合成库
- NVIDIA Omniverse: 用于创建和操作元宇宙应用程序的平台
- mmgeneration
- Modelverse: 用于深度生成模型的基于内容搜索
- PaddleGAN
创意机器学习
深度学习框架
运行时/部署
- FFCV: 用于加速机器学习训练的优化数据管道
- ONNX Runtime
- DeepSpeed(训练、推理、压缩)
- TensorRT
- Tensorflow Lite
- TorchScript
- TorchServe
- AITemplate
文本到图像
- ⭐️ 稳定扩散(Stable Diffusion)
- Imagen
- DALLE 2
- VQGAN+CLIP
- Parti
- Muse: 通过蒙版生成转换器进行文本到图像生成: 比扩散或自回归文本到图像模型更高效,使用蒙版图像建模和转换器
稳定扩散(SD)
- 梦想工作室: 官方 Stability AI 云托管服务。
- ⭐️ 稳定扩散 Web UI: 一个用户友好的SD界面,带有额外的功能 以简化常见的工作流。
- AI 渲染(Blender): 使用文本提示在 Blender 中渲染场景。
- 梦想纹理(Blender): 插件,用于使用SD渲染纹理、参考图像和背景。
- lexica.art - SD提示搜索。
- koi(Krita): 用于 Krita 的SD插件,用于img2img生成。
- Alpaca(Photoshop): Photoshop 插件 (beta)。
- 克里斯蒂安·坎特雷尔的插件(Photoshop): 另一个Photoshop插件。
- 稳定扩散工作室: 专注于动画的SD前端。
- DeepSpeed-MII: 用于多种(20,000以上)模型/任务的低延迟和高吞吐量推理,包括SD。
神经辐射场
创意编程
框架
可视化编程语言
数据集
许可宽松/开放访问
- LAION 数据集: 各种大规模图像-文本对数据集(主要用于训练开源 Stable Diffusion 模型)。
- LAION-Face
- Unsplash 图片
- Pixabay
- Pexels
- Open Images:Open Images 是一个包含约 900 万张图像的数据集,带有图像级标签、对象边界框、对象分割掩码、视觉关系和本地化叙述。
- Mozilla Common Voice:包含 17,127 小时经过验证的转录语音,覆盖 104 种语言。此外,数据集中的许多录音时长还包括人口统计元数据,如年龄、性别和口音,可以帮助提高语音识别引擎的准确性。
- Flickr Commons:Flickr Commons 是来自世界各地 100 多个文化机构的独特历史摄影收藏,所有这些照片都没有已知的版权限制。
- 互联网档案馆:互联网档案馆是一家非营利性图书馆,藏有数百万本免费书籍、电影、软件、音乐、网站等。
- 维基媒体共享资源:一个包含 106,323,506 个可自由使用的媒体文件的集合,任何人都可以贡献。
- Prelinger Archives
- Getty 图书馆开放内容计划:使来自 Getty 藏品的图像可自由用于研究、教学和享受。
- 史密森尼开放获取
- 公共领域评论:专注于现在进入公共领域的作品,这些丰富的公共领域材料可以供所有人自由享受、分享和利用。
- 国会图书馆
- 生物多样性遗产图书馆
- 大都会博物馆开放获取
- 国家美术馆开放获取
- 芝加哥艺术学院开放获取
- 纽约公共图书馆公共领域藏品
- 汉堡应用艺术与工艺博物馆 Steintorplatz
- FairFace
- 概念字幕
- 快画!
- 开放图像
- 视觉问答
- TensorFlow Flowers
- 斯坦福在线产品数据集
- DeepMind 3D 图形
- PASS:一个无人工干预的自监督预训练的 ImageNet 替代品,可以用于高质量的预训练,同时显著降低隐私问题。
脸部/人物(限制许可)
- 野外标记面孔(LFW)
- CelebA
- LFWA+
- CelebAMask-HQ
- CelebA-Spoof
- UTKFace
- SSHQ:全身 1024 x 512px
其他
产品/应用
- Artbreeder
- Midjourney
- DALLE 2(OpenAI)
- Runway - AI 驱动的视频编辑器。
- Facet AI - AI 驱动的图像编辑器。
- Adobe Sensei - 为 Creative Cloud 套件提供 AI 驱动的特性。
- NVIDIA AI 示范
- ClipDrop 和 cleanup.pictures
艺术家
一个在艺术、机器学习和设计的交汇处进行有趣创作的人的非详尽列表。
- Memo Akten
- Neural Bricolage (helena sarin)
- Sofia Crespo
- Lauren McCarthy
- Philipp Schmitt
- Anna Ridler
- Tom White
- Ivona Tau
- Trevor Paglen
- Sasha Stiles
- Mario Klingemann
- Tega Brain
- Mimi Onuoha
- Allison Parrish
- Caroline Sinders
- Robbie Barrat
- Kyle McDonald
- Golan Levin
机构/地点
- 创意探究工作室
- 纽约大学 ITP
- Gray Area 艺术基金会
- Stability AI (Eleuther, LAION 等)
- 伦敦大学金史密斯学院
- 加州大学洛杉矶分校设计媒体艺术
- 伯克利新媒体中心
- 谷歌艺术家和机器智能
- 谷歌创意实验室
- 谷歌文化研究所实验室
- 索尼计算机科学实验室(东京 和 巴黎)
相关列表和集合
- 艺术中的机器学习
- AI 艺术工具和资源(pharmapsychotic) - 包含用于生成文本到图像技术的 Google Colab 笔记本以及一般工具和资源的大列表。
- Awesome Generative Deep Art - 一个精心策划的生成性深度艺术/生成性 AI 项目、工具、艺术品和模型列表。
贡献
欢迎贡献!首先阅读贡献指南。