AI图像信号处理和计算摄影学
低级计算机视觉和成像的深度学习
主题 该存储库包含RAW图像处理、RAW图像重建和合成、学习型图像信号处理(ISP)、图像增强和修复(去噪、去模糊)、多镜头散景效果渲染等方面的材料!📷
以下工作的官方代码库:
- 高效多镜头散景效果渲染和转换 发表于 CVPR NTIRE 2023。
- 面向智能手机实时应用的感知图像增强 (LPIENet) 发表于 WACV 2023。
- 逆向图像信号处理和RAW重建。AIM 2022挑战赛报告 ECCV, AIM 2022
- 基于可学习字典的模型化图像信号处理器 AAAI 2022 口头报告
- MAI 2022 学习型ISP挑战赛 完整基线解决方案
- 引用和致谢 | 联系方式 如有任何疑问。
新闻 🚀🚀
- 将尝试每月更新一次存储库 ✏️
- [06/2023] 镜头到镜头散景效果转换和NTIRE 2023材料即将推出。
- [01/202] LPIENet材料已发布
- [10/2022] 在ECCV 2022 AIM研讨会上展示的逆向ISP和RAW重建材料现已可用
高效多镜头散景效果渲染和转换 (CVPRW '23)
这项工作是散景渲染和转换的最先进方法,也是NTIRE 2023散景挑战赛的基线。
阅读完整论文:高效多镜头散景效果渲染和转换
面向智能手机实时应用的感知图像增强 (WACV '23)
这项工作在2023年IEEE/CVF计算机视觉应用冬季会议(WACV)上展示。
近年来摄像头设计和成像流程的进步使我们能够使用智能手机拍摄高质量图像。然而,由于智能手机摄像头尺寸小和镜头限制,我们通常会在处理后的图像中发现各种瑕疵或退化,例如噪声、衍射伪影、模糊和HDR过曝等。 我们提出了LPIENet,这是一个轻量级的感知图像增强网络,重点是部署在智能手机上。
代码可在**lpienet*中找到,包括Pytorch和Tensorflow版本。我们还包括了模型转换为TFLite的代码,因此您可以生成相应的.tflite
文件,并使用Android设备上的AI Benchmark
应用运行该模型。
在lpienet-tflite.ipynb*中,您可以找到将模型转换为tflite的完整教程。
贡献
- 该模型可以在商用智能手机上1秒内处理4K图像。
- 在相关基准测试(如去噪、去模糊和HDR校正)中,我们与SOTA方法相比取得了有竞争力的结果。例如SIDD基准。
- 我们将NAFNet的MACs(或FLOPs)数量减少了50倍。
点击此处阅读摘要
近年来摄像头设计和成像流程的进步使我们能够使用智能手机拍摄高质量图像。然而,由于智能手机摄像头尺寸小和镜头限制,我们通常会在处理后的图像中发现各种瑕疵或退化。最常见的不良效果是噪声伪影、衍射伪影、模糊和HDR过曝。用于图像恢复的深度学习方法可以成功去除这些伪影。然而,由于计算量和内存需求大,大多数方法不适合在移动设备上进行实时应用。
在本文中,我们提出了LPIENet,这是一个轻量级的感知图像增强网络,重点是部署在智能手机上。我们的实验表明,尽管参数和操作更少,但我们的模型能够处理上述伪影,并在标准基准测试中实现与最先进方法相当的性能。此外,为了证明我们方法的效率和可靠性,我们将模型直接部署在商用智能手机上并评估其性能。我们的模型可以在中端商用智能手机上1秒内处理2K分辨率图像。
基于可学习字典的模型化图像信号处理器 (AAAI '22 口头报告)
这项工作在第36届AAAI人工智能会议上进行了口头报告(15%)
项目网站上可以找到海报、演示文稿和更多信息。
使用可学习字典建模ISP的混合模型和数据驱动方法。我们探索RAW图像重建,并通过原始数据增强合成改进下游任务,如RAW图像去噪。
如果您有实现问题或需要定性样本进行比较,请联系我。您可以在mbispld中下载我们方法的图示。
AIM 2022 逆向ISP挑战赛
这项工作在2022年欧洲计算机视觉会议(ECCV) AIM研讨会上展示。
Track 1 - S7 | Track 2 - P20
在这个挑战中,我们寻找只使用相机内ISP处理的对应RGB图像来恢复相机RAW读数的解决方案。成功的解决方案应该生成合理的RAW图像,通过这样做,其他下游任务如去噪、超分辨率或色彩恒常性可以从这种合成数据生成中受益。点击这里阅读更多信息了解挑战详情。
入门指南和代码 🔥
- aim-starter-code.ipynb - 简单的RGB-RAW对数据加载和可视化 + 其他实用工具。
- aim-baseline.ipynb - 端到端指南,包括加载数据、训练简单UNet模型和提交第一个结果!
MAI 2022 学习型ISP挑战赛
您可以在mai22-learnedisp中找到端到端基线:数据加载、训练顶级解决方案、模型转换为tflite。 该模型经过几个小时的训练后达到了23.46dB PSNR。这里您可以看到一个RAW输入样本和生成的RGB结果。
我们在AI Benchmark上测试了该模型。使用输入RAW图像544,960,4
并生成RGB1088,1920,3
,在中端智能手机(45.4 AI-score)上使用GPU委托和FP16,模型的平均延迟为60ms。
引用和致谢
@inproceedings{conde2022model,
title={Model-Based Image Signal Processors via Learnable Dictionaries},
author={Conde, Marcos V and McDonagh, Steven and Maggioni, Matteo and Leonardis, Ales and P{\'e}rez-Pellitero, Eduardo},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={36},
number={1},
pages={481--489},
year={2022}
}
@inproceedings{conde2022aim,
title={{R}eversed {I}mage {S}ignal {P}rocessing and {RAW} {R}econstruction. {AIM} 2022 {C}hallenge {R}eport},
author={Conde, Marcos V and Timofte, Radu and others},
booktitle={Proceedings of the European Conference on Computer