深入解析common_metrics_on_video_quality:轻松评估视频生成与预测质量的开源工具

Ray

common_metrics_on_video_quality

common_metrics_on_video_quality:视频质量评估的瑞士军刀

在人工智能和计算机视觉领域,视频生成和预测技术正在飞速发展。然而,如何客观、全面地评估这些模型生成或预测的视频质量,一直是一个具有挑战性的问题。GitHub上的开源项目common_metrics_on_video_quality为这一难题提供了一个优雅的解决方案。该项目由开发者JunyaoHu创建,旨在提供一套易用、全面的视频质量评估工具。

🌟 项目特色

common_metrics_on_video_quality项目的核心优势在于它集成了多种常用的视频质量评估指标,包括:

FVD (Frechét Video Distance): 用于衡量两组视频之间的相似度
SSIM (Structural Similarity Index Measure): 评估图像结构相似性
LPIPS (Learned Perceptual Image Patch Similarity): 基于学习的感知图像块相似度
PSNR (Peak Signal-to-Noise Ratio): 峰值信噪比,用于评估图像质量

这些指标涵盖了从低级统计特征到高级感知特征的多个方面,能够全方位地评估视频质量。

💡 技术亮点

多样化的FVD实现 项目支持两种基于PyTorch的FVD实现方法:来自VideoGPT和StyleGAN-V的实现。这两种方法的计算结果几乎相同,为用户提供了更多选择。
灵活的视频格式支持 无论是灰度视频还是RGB视频,该项目都能轻松处理。对于灰度视频,项目会自动将其扩展为3通道,以确保与各种评估指标的兼容性。
详细的评估结果 不仅计算整体指标,还提供了逐帧的详细评估结果。例如,对于30帧的视频,项目会计算从第10帧到第30帧的FVD值,以及每一帧的PSNR、SSIM和LPIPS值及其标准差。
高效的批处理能力 支持批量处理多个视频,大大提高了评估效率。

🚀 使用示例

以下是一个简单的使用示例,展示了如何使用该项目评估两组视频的质量:

import torch
from calculate_fvd import calculate_fvd
from calculate_psnr import calculate_psnr
from calculate_ssim import calculate_ssim
from calculate_lpips import calculate_lpips

NUMBER_OF_VIDEOS = 8
VIDEO_LENGTH = 30
CHANNEL = 3
SIZE = 64
videos1 = torch.zeros(NUMBER_OF_VIDEOS, VIDEO_LENGTH, CHANNEL, SIZE, SIZE, requires_grad=False)
videos2 = torch.ones(NUMBER_OF_VIDEOS, VIDEO_LENGTH, CHANNEL, SIZE, SIZE, requires_grad=False)
device = torch.device("cuda")

import json
result = {}
result['fvd'] = calculate_fvd(videos1, videos2, device, method='styleganv')
result['ssim'] = calculate_ssim(videos1, videos2)
result['psnr'] = calculate_psnr(videos1, videos2)
result['lpips'] = calculate_lpips(videos1, videos2, device)
print(json.dumps(result, indent=4))

这个例子展示了如何计算8个视频序列(每个包含30帧,尺寸为64x64的RGB视频)的质量指标。

📊 评估结果解读

评估结果以JSON格式返回,包含了丰富的信息:

FVD值从第10帧开始计算,直到第30帧
SSIM、PSNR和LPIPS为每一帧都计算了平均值和标准差
结果中还包含了视频设置信息,如批次大小、通道数、时长、高度和宽度

这种详细的结果格式使研究人员能够深入分析视频质量随时间的变化,以及不同指标之间的关系。

🛠️ 使用注意事项

安装依赖: 使用前需要先安装lpips库。
像素值范围: 确保输入视频的像素值在[0, 1]范围内。
FVD模型下载: 如果遇到FVD预训练模型下载问题,可以手动下载i3d_torchscript.pt或i3d_pretrained_400.pt并放入FVD文件夹。
SSIM计算: 对于3通道图像,SSIM会取平均值。
FVD帧数限制: 由于I3D模型在时间维度上进行下采样,计算FVD时帧数应大于10。
SciPy版本: 推荐使用scipy==1.7.3或1.9.3,避免使用1.11.3版本,以防计算错误的FVD值。
多GPU环境: 在多GPU机器上运行时,记得设置CUDA_VISIBLE_DEVICES=0环境变量。