2020年:充满惊人AI论文的一年——回顾
按发布日期精心整理的最新AI突破清单,附有清晰的视频解释、深入文章链接和代码
即使今年世界发生了很多事情,我们仍然有机会看到许多惊人的研究成果出现。特别是在人工智能领域。今年还突出了一些重要方面,如伦理问题、重要的偏见等。人工智能以及我们对人脑的理解及其与AI的联系正在不断发展,显示出在不久的将来有着很有前景的应用。
以下是今年最有趣的研究论文,以防您错过其中任何一篇。简而言之,这是按发布日期精心整理的最新AI和数据科学突破清单,附有清晰的视频解释、深入文章链接和代码(如适用)。请尽情阅读!
每篇论文的完整参考文献列在此存储库的末尾。
维护者 - louisfb01
订阅我的新闻通讯——每周解释最新的AI更新。
🆕 查看2021年的存储库!
如果有任何我漏掉添加到此存储库的好论文,请随时通过bouchard.lf@gmail.com给我发消息
如果您分享这个清单,请在Twitter上@Whats_AI 或LinkedIn上@Louis (What's AI) Bouchard 标记我!
观看2020年完整的15分钟回顾视频
如果您对计算机视觉研究感兴趣,这里有另一个很棒的存储库供您参考:
2020年十大计算机视觉论文,附视频演示、文章、代码和论文参考。
👀 如果您想支持我的工作并免费使用W&B来跟踪您的机器学习实验,使您的工作可重复或与团队协作,可以按照这个指南试用一下!由于这里的大部分代码都是基于PyTorch的,我们认为W&B PyTorch快速入门指南会非常有趣值得分享。
👉按照这个快速指南,在您的代码或下方任何存储库中使用相同的W&B代码行,您的所有实验都会自动在您的w&b账户中跟踪!设置不超过5分钟,它会像改变我生活一样改变您的生活!如果有兴趣,这里有一个更高级的指南用于超参数搜索的使用 :)
🙌 感谢Weights & Biases赞助这个存储库以及我所做的工作,也感谢使用此链接并尝试W&B的每一位!
全部清单
- YOLOv4: 目标检测的最佳速度与精度 [1]
- DeepFaceDrawing: 从素描生成面部图像的深度生成模型 [2]
- GameGAN: 学习模拟动态环境 [3]
- PULSE: 通过生成模型的潜在空间探索进行自监督照片放大 [4]
- 编程语言的无监督翻译 [5]
- PIFuHD: 用于高分辨率3D人体数字化的多级像素对齐隐式函数 [6]
- 用于视觉效果的高分辨率神经脸部交换 [7]
- 用于深度图像操纵的交换自动编码器 [8]
- GPT-3: 语言模型是少样本学习者 [9]
- 学习用于视频修复的联合时空变换 [10]
- Image GPT——像素生成预训练 [11]
- 使用白盒卡通表示学习卡通化 [12]
- FreezeG: 冻结判别器:一种用于微调GANs的简单基线 [13]
- 从单张图像的神经再渲染人类 [14]
- I2L-MeshNet: 从单张RGB图像中准确预测3D人体姿态和网格的图像到体素预测网络 [15]
- 超越导航图:连续环境中的视觉与语言导航 [16]
- RAFT: 用于光流的递归全对场变换 [17]
- Crowdsampling的全光函数 [18]
- 通过深度潜在空间翻译进行旧照片修复 [19]
- 神经电路策略使自主性可审核 [20]
- 寿命年龄转变合成 [21]
- DeOldify [22]
- COOT: 用于视频文本表示学习的协作层次转换器 [23]
- 风格化的神经绘画 [24]
- 实时人像抠图真的需要绿屏吗? [25]
- ADA: 使用有限数据训练生成对抗网络 [26]
- 使用深度卷积神经网络改进数据驱动的全球天气预测 [27]
- NeRV: 用于重新照明和视图合成的神经反射与可见性场 [28]
- 论文参考
YOLOv4: 目标检测的最佳速度与精度 [1]
这是Alexey Bochkovsky等人在2020年4月最近提出的第4版,在论文“YOLOv4: 目标检测的最佳速度与精度”中介绍。该算法的主要目标是制作一个在速度和精度方面都非常优秀的超快速目标检测器。
- 短视频解释:
- YOLOv4算法 | YOLOv4简介 | 实时目标检测 - 简短阅读
- YOLOv4: 目标检测的最佳速度与精度 - 论文
- 点击这里获取Yolo v4代码 - 代码
DeepFaceDrawing: 从素描生成面部图像的深度生成模型 [2]
通过使用这种新的图像到图像翻译技术,您现在可以从粗略甚至不完整的素描中生成高质量的面部图像,且无需任何绘画技巧!如果您的绘画技巧和我一样糟糕,您甚至可以调整眼睛、嘴巴和鼻子的影响程度来决定最终图像的效果!让我们来看看它是否真的有效以及他们是如何做到的。
- 短视频解释:
- AI从素描生成真实面孔! - 简短阅读
- DeepFaceDrawing: 从素描生成面部图像的深度生成模型 - 论文
- [点击这里获取DeepFaceDrawing代码](https://github.com/IGLICT/DeepFaceDrawing-J !观看视频](https://youtu.be/ajWtdm05-6g)
- AI 从 2D 图像生成 3D 高分辨率重建 | PIFuHD 介绍 - 简短阅读
- PIFuHD: 用于高分辨率 3D 人体数字化的多级像素对齐隐式函数 - 论文
- 点击这里查看 PiFuHD 代码 - 代码
用于视觉效果的高分辨率神经换脸 [7]
迪士尼的研究人员在同名论文中开发了一种用于视觉效果的高分辨率换脸算法。它能够以百万像素分辨率渲染出逼真的结果。作为迪士尼的一部分团队,他们无疑是这项工作的最佳团队。他们的目标是从源演员换到目标演员的脸,同时保持演员的表现。这非常具有挑战性,并且在许多情况下非常有用,比如改变角色的年龄,当演员不可用时,甚至是在涉及主演员无法完成的危险场景中。目前的方法需要大量的逐帧动画和专业的后期处理。
- 简短视频解释:
- 迪士尼的新高分辨率换脸算法 | 2020 年新换脸技术解释 - 简短阅读
- 用于视觉效果的高分辨率神经换脸 - 论文
用于深度图像操纵的交换自动编码器 [8]
这种新技术可以在完全无监督训练的情况下改变任何图片的纹理,同时保持真实性!结果甚至比 GAN 取得的还要好,同时速度更快!它甚至可以用来制作 deepfake!
- 简短视频解释:
- 纹理交换 AI 超越 GAN 用于图像操纵! - 简短阅读
- 用于深度图像操纵的交换自动编码器 - 论文
- 点击这里查看交换自动编码器代码 - 代码
GPT-3: 语言模型是少样本学习者 [9]
目前最先进的 NLP 系统在泛化以处理不同任务时存在困难。它们需要在数千个示例的数据集上进行微调,而人类只需看几个示例即可执行新的语言任务。这就是 GPT-3 背后的目标,旨在改进语言模型的任务无关特性。
- 简短视频解释:
- GPT-3 真能帮你和你的公司吗? - 简短阅读
- 语言模型是少样本学习者 - 论文
- 点击这里查看 GPT-3 的 GitHub 页面 - GitHub
学习用于视频修复的联合时空变换 [10]
这种 AI 能够填补被移除的移动物体后的缺失像素,并以比当前最先进的方法更高的准确性和更少的模糊度重建整个视频!
- 简短视频解释:
- 这种 AI 可以填补视频中物体后的缺失像素! - 简短阅读
- 学习用于视频修复的联合时空变换 - 论文
- 点击这里查看此视频修复代码 - 代码
Image GPT - 像素生成预训练 [11]
好的 AI,比如 Gmail 中使用的那种,能够生成连贯的文本并完成你的短语。这款 AI 使用相同的原理来完成一幅图像!全部通过无监督训练完成,不需要任何标签!
- 简短视频解释:
- 这款 AI 可以使用 GPT 模型生成图片的另一半 - 简短阅读
- Image GPT - 像素生成预训练 - 论文
- 点击这里查看 OpenAI 的 Image GPT 代码 - 代码
使用白盒卡通表示法学习卡通化 [12]
这款 AI 可以将你提供的任何图片或视频转换成你想要的卡通风格!让我们看看它是如何做到的以及一些令人惊叹的例子。你甚至可以像我一样在他们创建的网站上自己尝试!
- 简短视频解释:
- 这款 AI 可以将你提供的任何图片或视频转换成卡通!论文介绍与结果示例 - 简短阅读
- 使用白盒卡通表示法学习卡通化 - 论文
- 点击这里查看卡通化代码 - 代码
FreezeG: 冻结判别器:微调 GAN 的简单基线 [13]
这款人脸生成模型能够将普通人脸照片转换为独特的风格,如李漫年漫画风格、辛普森风格、艺术风格,甚至狗的风格!这种新技术最棒的地方在于它非常简单,并且显著优于之前用于 GAN 的技术。
- 简短视频解释:
- 这款人脸生成模型将真实人脸照片转换为独特的卡通风格 - 简短阅读
- 冻结判别器:微调 GAN 的简单基线 - 论文
- 点击这里查看 FreezeG 代码 - 代码
从单张图片进行人类的神经重渲染 [14]
该算法将人体姿态和形状表示为参数化网格,可以从单张图像中重建,并且容易重新设置姿态。给定一个人的图像,他们能够创建该人在不同姿势下的合成图像,或通过从另一张输入图像中获得不同的服装。
- 简 !观看视频](https://youtu.be/OSEuYBwOSGI)
- ECCV 2020最佳论文奖 | 一种新的光流架构 - 简短阅读
- RAFT: 递归全对场变换用于光流 - 论文
- 点击此处获取RAFT代码 - 代码
众包全光函数 [18]
利用来自互联网的游客公共照片,他们能够重建场景的多个视点,同时保留逼真的阴影和光照!这是逼真场景渲染技术的巨大进步,他们的结果简直令人惊叹。
- 简短视频说明:
- 从互联网游客公共照片中重建逼真的场景! - 简短阅读
- 众包全光函数 - 论文
- 点击此处获取众包代码 - 代码
通过深度潜在空间翻译进行老照片修复 [19]
想象一下,将您祖母18岁时的那些陈旧、折叠甚至撕裂的照片,以高清且无任何瑕疵的方式还原。这被称为老照片修复,这篇论文刚刚开辟了一条使用深度学习方法解决这一问题的新途径。
- 简短视频说明:
- 使用深度学习进行老照片修复 - 简短阅读
- 通过深度潜在空间翻译进行老照片修复 - 论文
- 点击此处获取老照片修复代码 - 代码
神经电路策略实现可审计的自主性 [20]
来自奥地利科学技术研究所(IST)和麻省理工学院(MIT)的研究人员成功地使用一种基于小动物大脑(如线虫)的新型人工智能系统训练了一辆自动驾驶汽车。与流行的深度神经网络(如Inceptions、Resnets或VGG)所需的数百万个神经元相比,他们只用了少量的神经元就能控制自动驾驶汽车。他们的网络只用了75,000个参数,由19个控制神经元组成,而不是数百万个!
- 简短视频说明:
- 一种新型脑启发智能系统使用仅19个控制神经元驱动汽车! - 简短阅读
- 神经电路策略实现可审计的自主性 - 论文
- 点击此处获取NCP代码 - 代码
寿命年龄转换合成 [21]
Adobe Research的一个研究团队开发了一种新的基于单张图片的年龄转换合成技术。它可以从你提供的任何照片中生成不同年龄段的图片。
- 简短视频说明:
- 生成年轻版和老年版的自己! - 简短阅读
- 寿命年龄转换合成 - 论文
- 点击此处获取寿命年龄转换合成代码 - 代码
DeOldify [22]
DeOldify是一种为老照片或甚至电影画面上色和修复的技术。它是由Jason Antic一个人开发并不断更新的。现在,它是为黑白照片上色的最先进方法,而且一切都是开源的,但我们稍后会再讨论这一点。
- 简短视频说明:
- 这款AI可以为你的黑白照片上色并生成全逼真渲染!(DeOldify) - 简短阅读
- 点击此处获取DeOldify代码 - 代码
COOT: 协作分层Transformer用于视频文本表示学习 [23]
顾名思义,它使用Transformer生成视频每个序列的准确文本描述,使用视频和对视频的一般描述作为输入。
- 简短视频说明:
风格化神经绘画 [24]
这种图像到绘画的翻译方法模拟了不同风格下的真实画家,使用了一种不涉及任何GAN架构的新方法,与当前所有最先进的方法不同!
- 简短视频说明:
- 使用风格迁移进行图像到绘画的翻译 - 简短阅读
- 风格化神经绘画 - 论文
- 点击此处获取风格化神经绘画代码 - 代码
实时人像抠图真的需要绿幕吗?[25]
人像抠图是一项极为有趣的任务,其目标是找到图片中的任何人并去除背景。由于任务的复杂性——需要完美勾勒出人物轮廓——这非常难以实现。在这篇文章中,我回顾了多年来使用的最佳技术,以及2020年11月29日发布的一种新方法。许多技术使用了基本的计算机视觉算法来完成这项任务,例如GrabCut算法,它速度极快,但精度不高。
- 简短视频说明:
[![观看
[SOURCE_TEXT]
[1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: 目标检测的最佳速度和准确性, 2020. arXiv:2004.10934 [cs.CV].
[2] S.-Y. Chen, W. Su, L. Gao, S. Xia, 和 H. Fu, "DeepFaceDrawing: 从草图生成人脸图像的深度生成," ACM Transactions on Graphics (ACM SIGGRAPH2020 会议论文集), vol. 39, no. 4, 72:1–72:16, 2020.
[3] S. W. Kim, Y. Zhou, J. Philion, A. Torralba, 和 S. Fidler, "学习通过 GameGAN 模拟动态环境," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020年6月.
[4] S. Menon, A. Damian, S. Hu, N. Ravi, 和 C. Rudin, Pulse: 通过生成模型潜在空间探索实现自监督照片上采样, 2020. arXiv:2003.03808 [cs.CV].
[5] M.-A. Lachaux, B. Roziere, L. Chanussot, 和 G. Lample, 编程语言的无监督翻译, 2020. arXiv:2006.03511 [cs.CL].
[6] S. Saito, T. Simon, J. Saragih, 和 H. Joo, Pifuhd: 用于高分辨率 3D 人物数字化的多层次像素对齐隐函数, 2020. arXiv:2004.00452 [cs.CV].
[7] J. Naruniec, L. Helminger, C. Schroers, 和 R. Weber, "用于视觉特效的高分辨率神经换脸," Computer Graphics Forum, vol. 39, pp. 173–184, 2020年7月. doi:10.1111/cgf.14062.
[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, 和 R. Zhang, Swappingautoencoder 用于深度图像操作, 2020. arXiv:2007.00653 [cs.CV].
[9] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, 和 D. Amodei, "语言模型是少样本学习者," 2020. arXiv:2005.14165 [cs.CL].
[10] Y. Zeng, J. Fu, 和 H. Chao, 学习视频修复的联合时空变换, 2020. arXiv:2007.10247 [cs.CV].
[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, 和 I. Sutskever, "从像素生成的预训练," Proceedings of the 37th International Conference on Machine Learning, H. D. III 和 A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 2020年7月13-18日, pp. 1691–1703. [Online]. Available: http://proceedings.mlr.press/v119/chen20s.html.
[12] Xinrui Wang 和 Jinze Yu, "使用白盒卡通表示学习卡通化.", IEEE Conference on Computer Vision and Pattern Recognition, 2020年6月.
[13] S. Mo, M. Cho, 和 J. Shin, 冻结判别器: 用于微调 GANs 的简单基线, 2020. arXiv:2002.10964 [cs.CV].
[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik, 和 C. Theobalt, "从单张图像生成人的神经重渲染," European Conference on Computer Vision (ECCV), 2020.
[15] G. Moon 和 K. M. Lee, "I2l-meshnet: 从单张 RGB 图像进行准确的 3D 人体姿态和网格估计的图像到像素网络," European Conference on Computer Vision (ECCV), 2020.
[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, 和 S. Lee, "超越导航图: 连续环境中的视觉与语言导航," 2020. arXiv:2004.02857 [cs.CV].
[17] Z. Teed 和 J. Deng, Raft: 用于光流的循环全对场变换, 2020. arXiv:2003.12039 [cs.CV].
[18] Z. Li, W. Xian, A. Davis, 和 N. Snavely, "人群采样全光函数," European Conference on Computer Vision (ECCV), 2020.
[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, 和 F. Wen, 通过深度潜在空间翻译恢复旧照片, 2020. arXiv:2009.07047 [cs.CV].
[20] Lechner, M., Hasani, R., Amini, A. 等, 神经回路策略实现可审计的自主性. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman, 和 I. Kemelmacher-Shlizerman, "生命周期年龄转换合成," European Conference on Computer Vision (ECCV), 2020.
[22] Jason Antic, DeOldify 的创建者, https://github.com/jantic/DeOldify
[23] S. Ging, M. Zolfaghari, H. Pirsiavash, 和 T. Brox, "Coot: 用于视频-文本表示学习的合作层次变换器," Conference on Neural Information Processing Systems, 2020.
[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan, 和 Z. Shi, 风格化神经绘画, 2020. arXiv:2011.08114 [cs.CV].
[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, 和 R. W. Lau, "实时人像抠图真的需要绿幕吗?" ArXiv, vol. abs/2011.11961, 2020.
[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, 和 T. Aila, 在有限数据下训练生成对抗网络, 2020. arXiv:2006.06676 [cs.CV].
[27] J. A. Weyn, D. R. Durran, 和 R. Caruana, "使用深度卷积神经网络在立方球上改进数据驱动的全球天气预测", Journal of Advances in Modeling Earth Systems, vol. 12, no. 9, 2020年9月, issn: 1942–2466. doi:10.1029/2020ms002109
[28] P. P. Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall, 和 J. T. Barron, "Nerv: 用于再照明和视图合成的神经反射率和可见性场," arXiv, 2020.
[/SOURCE_TEXT]