type
status
date
slug
summary
tags
category
icon
password
提出新metrics的一篇文章,仔细读一下。

原文摘要翻译

我们引入了一种新的度量指标,用于评估生成图像的质量。相比于之前的指标(如 Fréchet Inception Distance,FID),该指标更加可靠、数据高效、计算高效且更适应新领域。
我们提出的度量指标基于归一化流(normalizing flows),这使得可以计算任意领域图像的密度(精确的对数似然值)。因此,与 FID 不同,所提出的基于流的似然距离增强指标(Flow-based Likelihood Distance Plus,FLD+)在面对不同类型的图像退化(如噪声、遮挡、扩散步骤以及生成模型大小)时表现出强烈的单调性。此外,由于归一化流可以稳定且高效地训练,FLD+ 在使用比 FID 少两个数量级的图像时,依然可以获得稳定的结果(而 FID 需要更多图像来可靠地计算真实图像和生成图像大样本特征之间的 Fréchet 距离)。
通过将归一化流应用于低维潜在空间中提取的特征,而不是使用预训练网络,我们进一步提高了 FLD+ 的计算效率。我们还展示了 FLD+ 可以轻松地在新领域(如医学影像)上重新训练,而不像之前的一些指标(如基于 ImageNet 预训练的 InceptionNetV3 网络)那样受限于特定领域。

回顾一下 FID

Fréchet Inception Distance (FID) 是一种用于评估生成模型生成图像质量的指标,通常用于衡量生成图像与真实图像分布之间的差异。FID 主要用于生成对抗网络(GANs)等生成模型的评估。
FID 通过将真实图像和生成图像的特征分布表示为高斯分布,计算这两个分布之间的 Fréchet 距离(又称 2-Wasserstein 距离)。具体步骤如下:
  1. 特征提取:将真实图像和生成图像分别输入到一个预训练的 Inception 网络(通常是 InceptionNetV3)中,提取某一层的高维特征。
  1. 特征分布表示:将这些特征表示为多维高斯分布,用均值向量 μ 和协方差矩阵 Σ 表示。
  1. 计算分布差异:通过 Fréchet 距离公式计算两个分布之间的距离:
      • :真实图像特征的均值和协方差。
      • :生成图像特征的均值和协方差。
数值越小,表示生成图像质量越好,与真实图像分布的差异越小。FID 不仅考虑了图像的像素级差异,还捕捉了更高层次的特征分布信息,因此比早期的指标(如 Inception Score)更准确,能够捕捉图像质量和多样性,对生成图像中的模糊或模式崩塌较敏感。
但是:
  1. 依赖预训练网络:通常基于 ImageNet 数据集预训练的 Inception 网络,可能会对特定领域(如医学图像)不适用。
  1. 计算量较大:需要较多的图像样本来可靠地估计分布。
  1. 对图像分辨率敏感:不同分辨率的图像可能导致特征分布变化,从而影响 FID 的计算。
总结来说,FID 是评估生成模型性能的重要指标,但其依赖预训练网络和大样本的特性也带来了一些局限性。

概要

计算效率:FLD+通过在低维潜在空间中应用归一化流而不是使用预训练网络,进一步提高了计算效率。这使得FLD+在训练和测试阶段都更加高效
优势:FLD+的主要优势在于其稳定性、对小图像退化的敏感性以及对新领域的适应性。由于归一化流能够近似每个样本的精确对数似然,FLD+在仅有几百个样本时就能产生稳定的度量值,而其他方法则需要数万个样本。此外,FLD+不基于正态性假设,因此能够更好地建模复杂数据分布,对各种类型的图像退化更加敏感和方向正确。FLD+还能够适应新图像领域,即使使用预训练的特征提取器,也能通过在目标领域上训练归一化流来适应
实现:FLD+的实现包括训练一个流模型F,该模型结合了ImageNet预训练的计算机视觉背景和归一化流N。在评估阶段,计算真实图像集和生成图像集的平均对数似然,然后计算这些平均值的比率,并对这个比率进行指数化以获得最终的FLD+分数
参考这种评价指标,后面设计一个评价指标来针对 表型数据的生成如何评价 作为一个创新点

Metrics 设计细节

  • 总体要求
    • 单调性。质量变坏时评价指标能稳定地变高或稳定地变低
    • 敏感度。能够敏锐反映人类难以察觉的质量缺陷
    • 鲁棒性。仅用少量图片即可稳定反映质量
    • 高效性。计算开销应较小
  • 目前的情况
    • FID:应用十分广泛,但是
      • 忽略细粒度细节瑕疵:无法检测生成图像中的细节伪影(artifacts)。
      • 与人类评价存在不一致性:在文本生成图像任务中,FID 常与人类评分结果不一致,且在图像退化时表现出非单调行为。
      • 无法捕捉图像生成的细微差异:统计测试和经验研究表明,FID 无法完全反映图像生成的精细特征。
      • 可能存在模型偏差:对不同模型的评估结果可能存在偏差。
      • 对样本数量需求高:需要超过 20,000 张图像样本才能获得稳定可靠的评估结果,这在样本有限或需要快速验证的场景中不适用。
    • FLD:最近被尝试部署,但
      • 归一化流的隐层空间维度数等于输入的维度,导致计算开销过大
  • 这篇工作提出的 FLD+:降低数据流的维度
    • “leverages a pre-trained backbone network to extract a feature tensor that captures essential information from images.”
    • 提出了一种基于归一化流(normalizing flows)的新指标 FLD+,用于评估生成图像的质量。
    • 假设并验证了 FLD+ 对多种图像失真、扩散步骤以及生成模型规模变化的敏感性和单调性。
    • 假设并验证了 FLD+ 的数据效率(相比 FID 提高了两个数量级),归因于归一化流对图像对数似然的估计,使得指标估计更加稳定。
    • 使用归一化流对预训练特征提取器的特征空间分布建模,从而提升训练效率。
    • 假设并验证了 FLD+ 能够以较小的数据和计算需求适应新的图像领域,即使是在使用预训练特征提取器的情况下。
  • Previous Metrics Limitations
    • 基于多元正太分布的假设
    • 数据需求大,计算量大
    • 基于ImageNet训练
  • 测评标准:
notion image
  • 模型实现
从名字FLD+就能看出该工作是FLD的升级版本。我们回顾一下FLD的缺陷:“归一化流的隐层空间维度数等于输入的维度,导致计算开销过大”,这篇工作的改进就是着眼于优化该问题:在正则化流之前,设计了降维模块:
按照文本中的描述,模型的数据处理流程如下:
  1. 特征提取(Feature Extraction)
      • 采用ImageNet 预训练的计算机视觉骨干网络 B(例如 ResNet、VGG)。
      • 最后一层之前提取特征
        • 这里 仍然是一个高维张量(通常是三维,形状为 (C,H,W)。
    1. 2D 平均池化(2D Average Pooling)
        • 通过 进行降采样(down-sample),减少空间维度:
          • 这一步减少了数据的维度,同时保留了重要的特征信息。
      1. Flatten 操作
          • 由于后续的归一化流模型 N 需要处理一维向量,需要将 从 (C, H, W) 变成一维向量
            • NN
          • 例如,假设 xp 形状为 (256, 4, 4),flatten 后变为 (1, 256 × 4 × 4) = (1, 4096)
      1. 传递给归一化流模型(Normalizing Flow)
          • 归一化流 N 采用可训练参数 θ,对展平后的向量 xf 进行建模:
            • 归一化流学习数据分布,并输出数据的对数似然(log-likelihood)。
        notion image
        推理阶段,或者说用该模型来evaluate时,则是把生成图像和真实图像分别过一遍Flow Model后求个平均值,两者再相比作为自然常数的指数:
        • 这样定义有个好处,因为归一化的流动近似于每个样品的确切对数可能性,这是标量数量,因此当平均几百个图像平均时,它可能会产生稳定的度量。其他度量需要数万张图像才能首先估计假定的参数分布。
        • 其次,跨域性能强。为了解决仅使用预训练的CNN功能来解决数据集偏置,我们在从ImageNet预训练模型中获得特征嵌入后引入了归一化流。即使使用域外提取器进行计算,也可以在域特异性特征上训练这种归一化流量,从而有效地将嵌入到目标域。

         
        【python】"__main__"【ICLR 2021】BOOST THEN CONVOLVE: GRADIENT BOOSTING MEETS GRAPH NEURAL NETWORKS
        Loading...