PhoenixPeng's blog.

GAN与配准网络结合的相关工作

2024/07/24

RegGAN:《Breaking the Dilemma of Medical Image-to-image Translation》

1.GAN的基本原理简要

  生成对抗网络(GAN)是一个通过对抗过程同时训练生成器 \(\textcolor{MediumPurple}{G}\) 和判别器 \(\textcolor{MediumPurple}{D}\) 的框架。 在医学图像翻译当中,🔴生成器用于将源域图像 \(\textcolor{MediumPurple}{X}\) 的分布转换为目标域图像 \(\textcolor{MediumPurple}{Y}\) 的分布。🟠判别器用于确定目标域图像是否来自生成器或者真实数据。

  目前,有监督的 Pix2pix 和 无监督的 CycleGAN 是GAN 当中 图像翻译常用的两种模式。  

  1)Pix2pix: 通过最小化源图像 \(\textcolor{MediumPurple}{x}\) 和目标图像 \(\textcolor{MediumPurple}{y}\) 之间的像素级损失来更新生成器\(\textcolor{MediumPurple}{(G:X \rightarrow Y)}\)。因此,它需要对齐良好的配对图像,其中每个像素都有相应的标签。  

  2)CycleGAN:该框架为了解决没有对齐的图像所带来的挑战,开发了循环一致性,它基于以下假设:从源域图像 \(\textcolor{MediumPurple}{X}\) 到目标域 \(\textcolor{MediumPurple}{Y}\) \(\textcolor{MediumPurple}{(G:X \rightarrow Y)}\)的生成器 \(\textcolor{MediumPurple}{G}\) 是 从 \(\textcolor{MediumPurple}{Y}\) 到 \(\textcolor{MediumPurple}{X}\) \(\textcolor{MediumPurple}{(F:Y \rightarrow X)}\)生成器 \(\textcolor{MediumPurple}{F}\) 的逆向。与 Pix2Pix 模式相比,Cycle-consistency 模式对于未对齐或未配对的图像效果更好。

  然而,循环一致性模式有其局限性。在医学图像到图像翻译领域,不仅需要图像域之间的风格翻译,还需要特定图像对之间的翻译。最优解应该是唯一的。例如,翻译后的图像应尽可能保持原始图像的解剖特征。众所周知,Cycle-consistency 模式可能会产生多个解,这意味着训练过程可能相对扰动,结果可能不准确。 pix2pix 模式也不理想。尽管它有独特的解决方案,但很难满足要求良好对齐的配对图像的要求。对于未对齐的图像,错误会通过 Pix2Pix 模式传播,这可能会导致最终翻译图像出现不合理的位移。

  作者提出截至目前,还没有一种图像到图像转换模式能够在对齐数据上优于 Pix2Pix 模式,以及在未对齐或未配对数据上优于 Cycle-consistency 模式。受先前一些工作的启发,作者将未对齐的目标图像视为噪声标签,这意味着现有问题被视为带有噪声标签的监督学习。因此作者引入了一种新的图像到图像转换模式,称为 RegGAN。图 1 提供了三种模式的比较:Pix2Pix、Cycle-consistency 和 RegGAN。

图1:Pix2Pix、CycleGAN 和 RegGAN 的模式比较。

2.RegGAN

  如果将未对齐的目标图像视为噪声标签,那么图像到图像翻译的训练就变成了带有噪声标签的监督学习过程。给定一个训练数据集 \(\textcolor{Red}{\{(x_n, \tilde{y}_n)\}^N_{n=1}}\),带有 \(\textcolor{Red}{N}\) 个噪声标签,其中 \(\textcolor{Red}{x_n}\)\(\textcolor{Red}{\tilde{y}_n}\) 是来自两种模态的图像,并假设 \(\textcolor{Red}{y_n}\)\(\textcolor{Red}{x_n}\) 的正确标签,但在现实场景中是未知的。作者的目标是使用带有噪声标签的数据集 \(\textcolor{Red}{\{(x_n, \tilde{y}_n)\}^N_{n=1}}\) 来训练生成器,并尽可能达到与在干净数据集 \(\textcolor{Red}{\{(x_n, y_n)\}^N_{n=1}}\) 上训练相同的性能。

  基于方程 4 的直接优化通常不起作用,并且可能导致不良结果,因为生成器无法排除噪声的影响。

  为了解决噪声问题,作者提出了一种基于等式 5 所示的“损失校正”的解决方案。该解决方案通过对噪声转变 \(\textcolor{Red}{\phi}\) 建模以匹配噪声分布来校正生成器 \(\textcolor{Red}{G(x_n)}\) 的输出。此前,Patrini 等人在数学上证明,如果噪声转换 \(\textcolor{Red}{\phi}\) 与噪声分布匹配,则使用噪声标签训练的模型可以等效于使用干净标签训练的模型。

  为了实现这一点,Goldberger 等人提出将正确的标签视为潜在的随机变量,并将标签噪声显式建模为网络架构的一部分,用 \(\textcolor{Red}{R}\) 表示。然后,方程 5 可以重写为对数似然,用作神经网络训练的损失函数。

  与使用最大期望值、全连接层、锚点估计和Drichlet分布来求解方程6的现有方法相比。在本文的问题中,噪声分布的类型是更清楚的是,它可以表示为位移误差:\(\textcolor{Red}{\tilde{y} = y ◦ T}\) 。这里 \(\textcolor{Red}{T}\) 表示为随机变形场,它对每个像素产生随机位移。因此作者在生成器 \(\textcolor{Red}{G}\) 之后采用配准网络 \(\textcolor{Red}{R}\)作为标签噪声模型来校正结果。修正损失(Correction loss)如公式 7 所示:

image-20240725090249251

  其中,\(\textcolor{Red}{R(G(x), \tilde{y})}\) 是变形场,\(\textcolor{Red}{\circ}\) 表示重采样操作。配置网络基于U-Net。方程8中定义了平滑度损失(smoothness loss),以评估变形场的平滑度并最小化变形场的梯度。

  最后,添加生成器和判别器之间的对抗损失(等式 1),总损失如等式 9 所示。

MrGAN:《Multi-phase Liver-Specific DCE-MRI Translation via A Registration-Guided GAN》

2.MrGAN

图2:MrGAN方法的框架。使用一个编码器-解码器模型作为生成器。\(\mathcal{R}\)表示辅助配准网络,\((ψNet)\) 计算感知相似性损失。\((\phi Net)\)(a)是一个预先训练好的伪标签分割网络。(b)是MrGAN模型的鉴别器。(c)表示解码器中的CBAM层,其中CA和SA分别表示通道注意和空间注意力。

  如图2所示,MrGAN有4个步骤:

  1️⃣使用肝脏分割的一组伪标签来训练解剖网络 \(\textcolor{Red}{\phi}\) 作为形状先验。

  2️⃣生成器 \(\textcolor{Red}{\mathcal{G}}\) 将多相图像输入转换为v-HBP。

  3️⃣判别器 \(\textcolor{Red}{\mathcal{D}}\) 可确保良好的图像保真度,并包含正确的目标特征。

  4️⃣辅助配准网络 \(\textcolor{Red}{\mathcal{R}}\) 引导生成器解决未对准问题。

  图像到图像转换中的传统GAN(例如pix2pix)结合了联合重建损失和对抗损失,但由于未对准问题,在这种多阶段图像转换任务中无效。与它们不同的是,MrGAN引入了用于缓解未对准问题的可变形损失,用于最小化变形场梯度的平滑损失,形状一致性损失和感知损失,从而实现更逼真的全局细节和突出的局部肝脏区域。以下是MrGAN的详细信息。

2.1 Standard GAN

  生成对抗网络。生成器 \(\textcolor{Red}{\mathcal{G}}\) 是编码器-解码器网络,其负责将来自源模态 \(\textcolor{Red}{\mathcal{S}}\) 的4个输入图像\(\textcolor{Red}{X_S}\) 转换成v-HBP \(\textcolor{Red}{x_T}\) 近似于来自目标模态 \(\textcolor{Red}{T}\) 的图像 \(\textcolor{Red}{y_T}\)\(\textcolor{Red}{\mathcal{G}}\)由一组CONV-InstanceNorm-LeakyReLU块组成。在解码器中的每个通道级级联之后,在解码器中添加卷积块注意力模块(CBAM)层,如图2(c)所示,其中通道注意(CA)和空间注意(SA)块分别用于促进通道级和空间级特征重新校准。 判别器 \(\textcolor{Red}{\mathcal{D}}\) 区分 v-HBP 是真实的还是假的,如图2(B)所示。作者将条件和patchGAN损失最小化为如同pix2pix一样,与传统GAN损失相比,这导致更高质量的图像生成,并将对抗损失定义为

  重建损失。由于生成器的任务不仅是欺骗判别器,而且还在\(L_1\)近似真实输出,因此作者使用\(L_1\)损失来重建目标图像。此外,由于作者的方法不需要像素级的精度,因此引入了高斯模糊核以减轻\(L_1\)损失,其分别由下式给出

  其中 \(\textcolor{Red}{G(X_S)^*}\) 和 \(\textcolor{Red}{y^*_T}\) 分别是模糊的 \(\textcolor{Red}{G(X_S)}\)\(\textcolor{Red}{y_T}\)。我们把这两个损失函数加在一起,使得\(\textcolor{Red}{\mathcal{L}_{rec}(\mathcal{G})= \mathcal{L}_{L_1}(G)+\mathcal{L}_{L^*_1}(G)}\)

2.2 Registration-Guided GAN

  除了标准GAN之外,MrGAN还引入了变形损失(deformation loss)、平滑损失(smoothness loss)、形状一致性损失和感知损失,以解决多相位图像转换中的序列内和序列间不对齐问题。

  可变形配准网络。受RegGAN的启发,同时训练配准网络和GAN,以缓解序列内和序列间的失准问题。\(\textcolor{Red}{\mathcal{R}}\) 预测v-HBP和GED-HBP之间的可变形向量场(DVF)。采用仿射配准和矢量动量参数化的静止速度场(vSVF)来获得更好的变换规则。配准网络基于U-Net,变形损失定义为:

  其中,\(\textcolor{Red}{\mathcal{R}(G(X_S),y_T)}\)是变形场,并且符号 \(\textcolor{Red}{\circ}\) 表示扭曲操作。此外,定义了平滑损失来评估变形场的平滑性并使其梯度最小化,即

  平滑损失正则化可以避免变形场太大而导致输出图像中可能的折叠或不真实的细节。

  形状一致性。由于GED-HBP的扫描时间较长,导致肠道区域存在显著差异,而本文更关注肝脏区域,因此增加了形状一致性损失。如图2(a)所示,预先训练分割网络 \(\textcolor{Red}{\phi}\) ,以将结果规则化为期望的真实形状和更突出的肝脏区域。形状一致性损失定义为

  其中\(\textcolor{Red}{\phi(·)}\)是预先训练的分割网络的特征图。

  感知相似性。所生成的图像通常会丢失空间中的精细细节,而仅有像素级的损失。感知损失被应用于特征级比较以提供附加约束,通过提取预训练的VGG-19的中间特征来计算,如下所示:

  式中,\(\textcolor{Red}{ψ_l(·)}\)为特征提取器的第\(\textcolor{Red}{l}\)层映射。

  最后,将上述所有损失函数组合如下,

  这些技巧可以带来更好的翻译效果。权重\(λ_1、λ_2、···、λ_4\)平衡这些技术的正则化效果

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

CATALOG
  1. 1. RegGAN:《Breaking the Dilemma of Medical Image-to-image Translation》
    1. 1.1. 1.GAN的基本原理简要
    2. 1.2. 2.RegGAN
  2. 2. MrGAN:《Multi-phase Liver-Specific DCE-MRI Translation via A Registration-Guided GAN》
    1. 2.1. 2.MrGAN
      1. 2.1.1. 2.1 Standard GAN
      2. 2.1.2. 2.2 Registration-Guided GAN