MENU

【论文阅读】Self-Supervised Out-of-Distribution Detection and Localization with Natural Synthetic Anomalies (NSA)

March 20, 2022 • 神经网络

Abstract

我们引入了一个新的自我监督任务 NSA,用于训练仅使用正常数据进行异常检测和定位的端到端模型。 NSA 使用了泊松图像编辑从单独的图像中无缝混合各种大小的缩放块。 这种编辑产生了范围广泛的异常合成,与以前的自我监督异常检测数据增强策略相比,这些异常更类似于自然图像的不规则性。 我们使用了自然和医学图像评估所提出的方法,对 MVTec AD 数据集的实验表明,经过训练以定位 NSA 异常的模型可以很好地推广到检测现实世界中先验未知类型的制造缺陷。 我们的方法实现了 97.2 的整体检测 AUROC,优于所有以前从头开始学习而无需预训练数据集的方法。

Introduction

异常检测是一种二元分类任务,其目的是将正常数据与异常示例分开。 根据可用的训练数据和标签,有不同类型的异常检测。 在实际情况中,我们往往只能拿到正常的样本。为了在实际应用中发挥作用,自动化系统必须能够检测到细微和罕见的异常。

异常的罕见性导致了我们不可能为有监督的方法获取足够数量的人工注释训练数据。获得精确的真实标注非常耗时,并且需要该应用领域的大量专业知识。正因如此,仅基于正常数据的异常检测在许多领域都有应用例如医学图像中的无监督病变检测、工业生产管道中的缺陷检测以及在监控视频中检测异常事件。

无监督方法的主要挑战是设计一种鼓励模型学习与异常检测相关的特征但无需事先了解预期的异常类型的训练方法。许多用于异常检测的无监督方法依赖于学习正常数据的特征,并重建这些特征来定义异常分数。因此,自监督学习正成为异常检测中的一种突出策略。通过设计适当的任务,自我监督可以成为监督学习的有效代理,从而绕过对标记数据的需求。虽然可以使用各种自监督任务,例如上下文预测或估计几何变换,来学习数据的压缩表示,但最近的工作表明,模仿真实缺陷的数据增强策略对于子图像异常特别有效检测。但是,使用 CutPaste 带来的异常具有明显的不连续性,这引起了人们对模型可能过度拟合合成操作的担忧。同时,外部补丁插值 (FPI)是为医学成像应用而设计的,因此可能会产生对工业缺陷检测等其他应用来说过于微妙的异常。

我们引入了一种新的用于图像异常检测的自我监督任务,NSA,它使用泊松图像编辑从单独的图像中无缝混合各种尺寸的缩放和移位的补丁,并创建更自然的各种合成异常图像不规则性优于以前的自监督异常检测数据增强策略,例如 FPI 或 CutPaste。与 FPI 一样,NSA 可用于训练用于异常检测和定位的端到端模型,而不是为 multi-stage 类的模型生成压缩表示。

我们在 MVTec AD 数据集上评估所提出的方法,该数据集包含正常的训练数据以及针对各种自然和制造缺陷的正常和异常测试数据 10 个对象和 5 个纹理类。 NSA 在从头开始学习的方法中实现了新的最先进的定位 (96.3 AUROC) 和检测 (97.2 AUROC) 性能。 它的性能也与使用在 ImageNet 上预训练的模型的最佳方法相当。 与 ImageNet 中的大量数据相比,我们的方法仅使用 MVTec AD 数据,每个类别包含 60 到 391 个训练图像。

NSA 是一种非常通用的方法,用于在图像中创建多样化和逼真的合成异常,其应用不仅限于自然图像。 我们使用公共胸部 X 射线数据集的精选子集来评估 NSA,发现它在疾病检测方面优于其他最先进的自我监督方法。

Related Work

基于重构的异常检测 其使用了变分自动编码器 (VAE)、贝叶斯自动编码器、生成对抗网络 (GAN) 或使用矢量量化 VAE (VQ-VAE) 的恢复距离从像素级重建误差建立像素级和图像级异常分数用正常数据训练。 可以通过利用从模型中导出的附加信息来提高异常分数,例如使用 GAN 时的鉴别器输出、图像级分数的 VAE 潜在表示的 KL 散度或其像素级的梯度分数,或使用 VQ-VAE 或潜在空间自回归在学习的先验下潜在表示的可能性。 这些方法的一个缺点是难以控制模型的容量。 根据正则化,该模型有可能不能很好地重建正常示例的所有细节。

基于嵌入的异常检测 其通过从正常训练图像的嵌入向量与其测试示例之间的差距得出异常分数。 嵌入相似性度量可以使用任何一类分类方法来定义,例如使用支持向量数据描述 (SVDD)、高斯分布,或使用 KNN 算法。 嵌入向量的特征通常是从预训练的深度神经网络中提取的,但也可以使用自监督任务或与 Deep-SVDD 中的 one-class classification 目标一起从头开始学习(或二者的组合)。 当使用整个图像的嵌入时,基于嵌入的方法可以执行异常检测,但无法定位异常位置,因此可解释性较差。 为了规避这个问题,后续研究中使用了补丁级嵌入来创建异常图,而将测试图像与像素级训练集中的最近的图片进行比较从而定位异常。

自监督学习 自监督基于未标记数据定义的代理任务产生的监督信号,例如预测补丁的相对位置或估计几何变换,可以帮助模型学习下游任务的有用特征。 在使用从代理任务中学习到的特征来发现不同的对象类别的同时,自监督学习也成功地应用于子图像异常检测。 在《Detecting Outliers with Foreign Patch Interpolation》 中,自监督任务的输出是对插值因子的预测,其中来自训练分布中另一个观察的外部补丁已混合到当前图像中。其直接将此输出用作异常分数,无需任何进一步的训练步骤。 我们依旧为我们的方法采用了这种通用设置。

泊松图像编辑 将一个图像的一部分粘贴到另一个图像中会导致明显的不连续性。因此产生了一种将对象从一个图像无缝克隆到另一个图像的方法。由原图像 g 和目标图像目标图像 f∗。我们在区域 Ω 的内部寻找一个插值 f,边界为 δΩ,以解决由 (1) 给出的最小化问题。其具有泊松偏微分方程(2)的唯一解,其中狄利克雷边界条件由目标图像给出。

image.png

在这里给出了定义梯度场的两种方法:a) 使用源图像梯度 (3) 或 b) 源梯度和目标梯度的混合 (4)。

image.png

在实际应用中,对 (2) 的有限差分离散化进行了数值求解。无缝克隆在我们在自我监督任务中使用的 OpenCV 库中实现。

NSA Self-supervised task

由于在训练时只有正常数据可用,因此需要使用代理任务对模型进行训练。 在我们的例子中,任务是通过将源图像中的补丁混合到目标图像中来定位从正常数据创建的合成异常,如下所示:

  1. 在源图像中选择一个随机的矩形块。
  2. 随机调整补丁大小并选择不同的目标位置。
  3. 将补丁无缝融合到目标图像中。
  4. 或者,重复步骤 1-3 以将多个补丁添加到同一图像。
  5. 创建一个像素级标签掩码。

更正式地说,给定两个正常的 N × N 训练图像 xs 和 xd,我们在源图像 xs 中选择一个宽度为 w、高度为 h 和中心 (cx; cy) 的随机矩形块 ps,其中:

image.png

从截断的 Gamma 分布中采样宽度和高度意味着我们假设异常是局部的(小),但我们也希望模型也能够识别更大的不规则性。因此,也会生成一些细长的矩形和偶尔的大块。宽度和高度范围是根据对象的尺寸选择的。 对于包含对象和纯背景的图像,我们通过将像素级绝对差与背景亮度进行阈值化来计算对象掩码 ms 和 md。 对于每个像素 i,掩码由下式给出:

image.png

我们重复应用公式(7) 直到

image.png

以确保补丁包含对象的一部分。 然后我们调整补丁的大小以获得宽度 w0 = sw 和高度 h0 = sh 的 p0 s。 我们在目标图像 xd 中选择一个具有相同尺寸和中心 (c0 x; c0 y) 的目标补丁 pd 满足:

image.png

为了防止创建许多漂浮在背景中的补丁示例,我们重复应用 (10) 直到

image.png

且有

image.png

其中 mpd 和 mp0 s 是源和目标补丁的对象掩码。 我们在位置 (c0 x; c0 y) 处将 p0 s 无缝融合到 xd 中,以获得训练样本 xe。 在混合第一个补丁之后,我们通过翻转 n - 1 个模块来添加 n - 1 个进一步的补丁, 图 1a 显示了如何创建合成异常的简化轮廓。

image.png

我们使用引入外来补丁的局部强度差异来创建像素级标签 y~,它是 a) 二元:是否存在差异,b) 基于 C 个颜色通道的平均绝对强度差异连续 , 或 c) 前一个的逻辑函数。 所有标签都经过中值过滤以更加连贯。 在过滤之前,每个像素 i 处的标签值计算如下:

image.png

相比之下,FPI 使用补丁插值因子作为标签。 这略微有些不合适,因为在不知道源补丁和目标补丁的像素情况下无法确定插值因子。 我们的标签与强度的变化(由补丁混合创建)直接相关,因此提供了更一致的训练信号。当使用有界标签(yebinary 或 yelogistic)时,我们使用二元交叉熵损失来定义我们的逐像素回归目标。 对于无界标签(yecontinuous),我们使用均方误差损失。 损失在 (14)–(15) 中给出,其中 yb = f(xe) 是深度卷积编码器-解码器的输出。

image.png

通过改变大小、纵横比、源和目标位置以及调整补丁的大小,该方法在训练期间动态创建了广泛的合成异常。 这些示例通过混合包含一些背景的补丁来显示局部图像组件的大小、形状、纹理、位置和颜色的变化以及缺失的组件,同时保持图像的整体分布并避免明显的不连续性。 因此,这些示例是自然子图像异常的更真实的近似,而不是通过简单地将补丁粘贴在不同位置构建的 CutPaste 增强,并且比在 FPI 中从对应位置的两个单独图像插值补丁更多样化,尽管仍然对人类观察者来说特征是人工的(图 1b)。