albumentations - 提升深度学习模型质量的图像增强Python库

Albumentations 项目介绍

什么是 Albumentations

Albumentations 是一个用 Python 编写的图像增强库。图像增强技术通常用于深度学习和计算机视觉任务中，以提高训练模型的质量。图像增强的目的是从现有数据中创建新的训练样本，从而提升模型的能力和准确性。

例如，可以利用 Albumentations 对图像进行像素级增强，从原始图像创建出新的变体。

parrot

为什么选择 Albumentations

支持多种计算机视觉任务： Albumentations 支持分类、语义分割、实例分割、目标检测和姿态估计等常见的计算机视觉任务。
简单统一的 API： 提供一个简单统一的 API，可以处理包括 RGB 图像、灰度图像和多光谱图像在内的各种数据类型，及其对应的分割掩码、边界框和关键点。
多样性丰富的增强： 库中包含超过 70 种不同的增强方式，用于从现有数据中生成新的训练样本。
快速高效： 每次新版本发布时，都会对增强效果进行基准测试，以确保提供最快的速度。
兼容主流深度学习框架： 与 PyTorch 和 TensorFlow 等流行的深度学习框架配合使用，该库也是 PyTorch 生态系统的一部分。
由专家撰写： 作者们在计算机视觉系统的生产中有丰富的经验，并且常参与机器学习比赛。团队核心成员中有多人荣获 Kaggle 大师称号。
行业广泛使用： 广泛用于工业界、深度学习研究、机器学习竞赛以及开源项目中。

安装

Albumentations 需要 Python 3.9 或更高版本。在 PyPI 上可以通过以下命令安装最新版：

pip install -U albumentations

其他安装方法可以参考官方文档。

简单示例

以下是一个使用 Albumentations 的简单代码示例：

import albumentations as A
import cv2

# 声明一个增强管道
transform = A.Compose([
    A.RandomCrop(width=256, height=256),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
])

# 使用 OpenCV 读取并转换图像为 RGB 颜色空间
image = cv2.imread("image.jpg")
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 增强图像
transformed = transform(image=image)
transformed_image = transformed["image"]

谁在使用 Albumentations

多家知名企业和研究机构都在使用 Albumentations，包括 Apple、Google、Meta、NVIDIA、Amazon、Microsoft、Salesforce、IBM 等。此外，该库也被广泛使用于机器学习竞赛和其他开源项目中。

Augmentations 列表

像素级增强： 专注于改变输入图像的像素值，不影响其他目标，比如掩码、边界框、关键点等。例如，模糊、颜色抖动、直方图匹配等。
空间级增强： 同时改变输入图像及其附带的目标，如掩码、边界框、关键点等。例如，仿射变换、中心裁剪、随机旋转等。

基准测试结果

在多种常见的图像增强任务中，相对于其他流行的增强库如 augly、imgaug、kornia 和 torchvision，Albumentations 在大多数操作上表现出色，速度领先。

Albumentations 因其高效性、灵活性和丰富的功能，已经成为深度学习和计算机视觉研究领域的重要工具。无论是图像分类、目标检测，还是医学影像处理，它都提供了令人满意的效果和开发体验。