PhoenixPeng's blog.

生成增强CT图像的相关论文2

2024/07/28

《Mask-aware tranformer with structure invariant loss for CT translation》

一、摘要

  多期增强CT(Multi-phase Enhanced Computed Tomography,MPECT)是由CT平扫转换而来的,可以帮助医生发现肝脏病变,防止患者在MPECT检查中出现过敏反应。现有的CT转换方法直接学习从平扫CT到MPECT的端到端映射,忽略了关键的临床领域知识。在临床诊断中,临床医生从MPECT图像中减去平扫CT作为减影图像,以突出对比度增强区域并进一步促进肝脏疾病的诊断,旨在利用该领域的知识进行CT自动转换。为此,本文提出了一种具有结构不变损失的掩模感知Transformer(MAFormer)用于CT变换,这是首次利用该领域的知识进行CT变换的尝试。具体地,所提出的MAFormer引入掩模估计器来从平扫CT图像预测减影图像。为了将减影图像集成到网络中,MAFormer设计了一个基于掩模感知Transformer器的归一化(MATNorm)作为归一化层,以突出对比度增强区域并捕获这些区域之间的长程依赖性。此外,为了保持CT切片的生物结构,设计了一种结构不变损失来提取结构信息,并最小化平扫和合成CT图像之间的结构相似性,以保证结构不变。

二、介绍

  在过去的几十年中,由于不同的危险因素,肝癌的死亡率增长最快。为了观察肝脏病变,医生利用平扫计算机断层扫描(CT)来区分良性肿瘤和恶性肿瘤。与临床医生可能忽略的肝脏病变的不明确的平扫CT扫描相比,包括平扫(即,在注射造影剂之前)、动脉期、门静脉期和延迟期,可以表征肝损伤的生物学性质以提供更好的治疗方案。如图1(a)所示,相同区域在连续的4幅CT图像之间对比度不同,可以帮助医生动态观察病变。然而,MPECT检查将造影剂注入患者体内,可能引起过敏反应。为了避免患者出现过敏反应,将CT平片转换为MPECT图像是一种潜在的解决方案,可以在不进行检查的情况下获得MPECT。

图1.真实的和合成MPECT图像的示例。(a)MPECT图像包括四个连续的CT图像,其中放大的斑块显示对比增强区域。(b)不同方法生成的动脉期与CT平扫图像结构的比较。放大的显示部分由现有方法合成的损坏的结构。

  自动CT翻译已经通过各种基于深度学习的方法进行了研究。就网络体系结构而言,这些方法可以被分类为两组,包括基于编码器-解码器的和生成对抗网(GANs)的方法。前者采用基于编码器-解码器的网络(例如,U-Net )作为主干,像素级损失用于监督。后者包括用于合成真实CT图像的生成器和用于区分真实的CT图像与合成CT图像的判别器。

  即使先前的方法已经深入挖掘了CT平扫图像与目标图像之间的相关性,但这些方法的CT翻译性能仍然不理想。现有技术通过直接学习从平扫CT图像到目标CT图像的映射来实现CT翻译。在真实的的临床实践中,医生使用时间减影技术来检测腹部CT图像上的小肝细胞癌(HCC)。他们从增强CT图像中减去平扫CT图像作为减影图像,以突出增强区域。然而,在现有方法中还没有将该领域知识用于CT翻译。在此,作者尝试利用这些领域知识来估计减影图像,并强调平扫和增强CT图像之间的关系,以便于CT翻译。为了进一步将减影图像整合到平扫CT图像中,直观的解决方案是采用现有技术,以通过自适应地归一化输入特征来将减影图像并入CT翻移网络。然而,这些方法忽略了对比区域之间的相关性,并且可能生成不准确的CT图像。例如,MPECT图像的某些区域应同时进行对比增强(例如,动脉期的肾脏和主动脉)。因此,减影图像与CT平扫图像融合的方法应强调增强区域在框架内的关系。

  此外,在MPECT检查过程中,CT扫描的软组织被增强,而骨骼和器官的形状保持不变。因此,CT平扫和增强图像应保持病变区域生物学结构的一致性,以免影响临床对病变区域的诊断。在图1(B)中,作者可视化了由现有方法,如放大的块所示,现有方法破坏了合成CT图像的结构。近年来,一些工作采用了循环一致性损失和条件性GAN或引入空间相关图缩小平扫和目标CT图像之间的结构差异。然而,空间相关映射仅表示输入图像和合成图像之间的共享信息,而不是它们的内在结构(例如,骨头)。因此,为了保持合成图像的CT结构,CT翻译方法需要提取固有结构并提供精确的结构监控。

  为了解决这些问题,作者介绍了一个掩模感知的Transformer(MAFormer)与CT翻译的结构不变损失。所提出的方法的目标是利用减影图像,以方便CT翻译。首先设计一个掩模估计器来预测掩模图像作为每个平片CT图像的减影图像。利用估计的掩模图像,所提出的MAFormer应用基于Mask-Aware Transformer的归一化(MATNorm)作为归一化层来突出对比度增强的区域并利用它们的相关性。为了进一步捕捉这些区域之间的长距离依赖关系,MATNorm利用Transformer作为主干来促进远距离对比区域之间的交互。为了保持CT结构,提出了一种结构不变损失(SIL)方法,以减少提取的结构感知特征的冗余纹理,并最大限度地减少普通CT图像和合成CT图像之间的结构感知特征差异。通过这种方式,所提出的MAFormer可以集成领域知识,以促进CT翻译,并生成真实合理的CT图像,用于肝癌诊断。

  本文的贡献归纳如下:

  1️⃣作者提出了一个掩模感知的Transformer(MAFormer)的CT翻译,其中包括一个掩模估计器生成的减影图像的生成器,以进一步促进CT从普通CT到MPECT图像的翻译。据我们所知,这是第一个工作,开发减影图像的CT翻译,这是非常重要的意义,在肝脏病变的诊断在真实的临床实践。

  2️⃣为了将掩模图像整合到CT平片图像特征中,作者设计了一个基于掩模感知Transformer的归一化层(MATNorm),该层试图通过研究对比度增强区域的长程依赖关系并将此信息注入到CT平片图像特征中来突出对比度增强区域。

  3️⃣为了在CT翻译过程中保持普通CT图像和合成CT图像之间的结构不变,提出了一种结构不变损失,以减少这些CT图像提取的结构信息之间的差异。

三、相关工作

1.CT 翻译

  当前的CT平移方法可以分为两组,即,基于encoder-decoder的方法和基于GAN的方法。前一种方法采用基于编码器-解码器的网络作为骨干来实现CT翻译。例如应用了U-NET的框架,采用两个损失函数,包括合成图像和真实的CT图像之间的平均绝对误差(MAE)和结构不相似性(DSSIM)。至于后一种方法,它们在其框架中采用基于GAN的方法,例如,pix2pix和CycleGAN。这些方法包括将输入图像转换为目标图像的生成器和将真实的与合成图像区分开的判别器。Upadhyay等人(2021)设计了一种基于渐进GAN的框架,以应用随机不确定性作为指导,从磁共振成像(MRI)或正电子发射断层扫描(PET)图像合成CT图像。受CycleGAN的启发,Armanious等人(2019)引入了Cycle-MedGAN,以利用特征级的循环一致性损失来最大限度地减少真实的和合成CT图像之间的纹理和感知距离。具体地说,减影图像可以在不同的相位中突出MPECT图像的对比度增强区域,并且还可以用于检测癌细胞。因此,作者采用减影图像来开发CT翻译的领域知识,以通过定制的模块来简化翻译过程。

2.CT 翻译的结构保留

  在CT翻译期间,合成CT图像的生物结构与普通CT图像相比应当保持不变。为了保持生物结构,我们需要提取结构信息,这不仅包括两个CT图像之间的最大互信息(例如骨骼),而且还排除冗余信息(例如纹理)。为了最大化互信息,自监督学习(SSL)被广泛用于学习没有任何注释的代表性特征,其可以进一步用于下游任务。一些对比SSL方法学习通过潜在空间中的对比损失来最大化示例和增强示例之间的一致性。为了增加输入图像和合成图像之间的互信息,在一些方法中采用对比SSL的图像翻译任务。CUT是第一个将对比SSL应用于图像翻译的工作,它利用逐块对比损失来最大化输入和输出图像的对应块之间的互信息。基于这项工作,Zheng等人(2021)引入了F-LSeSim来计算图像内的对比度损失,并系统地学习没有外观属性的空间相关地图。受F-LSeSim的启发,Ang等人(2022)采用空间相关图作为结构图,并在CT翻译期间对合成CT图像施加结构监督。然而,空间相关映射只包括输入和合成图像之间的共享信息,而不是内在结构。它不仅应该包含它们的共享信息(例如骨骼),还应该排除冗余信息(例如纹理)。因此,作者提出了一个结构不变的损失,提取内在结构与较少的冗余纹理,并保持不变的合成CT图像。

四、方法

1.总体网络结构概述

  如图2所示,作者提出了一种用于CT翻译的具有结构不变损失的Mask-Aware Transformer(MAFormer),其包括Mask Estimator \(\textcolor{blue}{R}\)、生成器 \(\textcolor{blue}{G}\) 和 判别器 \(\textcolor{blue}{D}\)在给定平扫CT图像 \(\textcolor{blue}{x}\) 的情况下,Mask Estimator可以通过预测对应的Mask image \(\textcolor{blue}{M}\) 来指示目标CT图像的对比度增强区域。然后,生成器 \(\textcolor{blue}{G}\) 通过多个mask-aware block(MAB)将平扫CT图像和Mask image的特征进行融合,并获得合成CT图像\(\textcolor{blue}{y^\prime= G(x, R(x))}\),其中MAB包含两个卷积层和基于Mask-Aware Transformer的归一化(MATNorm)层。最后,所提出的结构不变损失,对抗性损失和重建损失联合使用,以优化MAFormer。

图2.(a)介绍了基于结构不变损失的Mask-Aware Transformer(MAFormer),包括用于Mask image预测的Mask Estimator、用于Mask image融合的基于Mask-Aware Transformer的归一化(MATNorm)和用于保持CT结构的结构不变损失;(B)提出的MATNorm,其中 \(T\) 表示 transformer。

2.Mask-Aware Transformer based network

2.1 Mask Estimator

  大多数CT合成方法倾向于直接学习从平扫CT图像到目标CT图像的端到端映射,而不考虑CT翻译的领域知识,尤其是减影图像(subtraction image)。事实上,减影图像(subtraction image)可进一步用于促进肝病诊断。但是,减影图像尚未用于CT翻译。因此,为了采用减影图像来促进CT合成,提出了一种Mask Estimator来生成减影图像而不需要目标CT图像。

  Mask Estimator \(R\)是一个编码器-解码器网络,其目的是Mask image作为每个平扫CT图像 \(\textcolor{blue}{x}\) 的减影图像。Mask image \(\textcolor{blue}{M}\) 被定义为\(\textcolor{blue}{M=R(x)}\)。为了监督Mask image的合成,计算生成的Mask image \(\textcolor{blue}{M}\) 和真实Mask image \(\textcolor{blue}{M_{GT}}\) 之间的掩模重建损失,以Mask Estimator的可靠性,\(\textcolor{blue}{L_M =||M-M_{GT}||^1}\),其中\(\textcolor{blue}{M_{GT}}\)是通过从目标CT图像中减去平扫CT获得的。通过采用Mask Estimator,可以获得具有潜在的对比度增强区域的平扫CT图像,并给予一个提示用于目标CT图像合成。

2.2 Mask-Aware transformer based normalization (MATNorm)

  为了将生成的Mask image整合到平扫CT图像,现有方法可以使用自适应参数来归一化平扫CT图像特征。然而,这些方法不能探索对CT成像有用的对比区域之间的相关性。因此,作者引入了基于Mask-Aware Transformer的归一化(MATNorm)来选择Mask image 图像中的对比度增强区域,并利用这些区域之间的长程依赖性来归一化普通CT图像特征,并进一步促进CT翻译,如图2(B)所示。

  为了突出对比度增强的区域,作者首先在生成的Mask image \(\textcolor{blue}{M \in R^{H \times W}}\)上执行具有窗口大小(\(\textcolor{blue}{k \times k}\))和窗口步幅(\(\textcolor{blue}{s}\))的滑动窗口,以获得多个对比度区域(RoC),其中RoC表示对比度区域。作者将RoC的像素值相加作为置信度得分,并挑选出最高的RoCs \(\textcolor{blue}{S \in R^{C \times k \times}}\)。对于RoCs \(\textcolor{blue}{S}\),作者将其反转以获得其背景 \(\textcolor{blue}{1−S}\),其中表示1的矩阵。然后,通过分别执行 \(\textcolor{blue}{S}\)\(\textcolor{blue}{\hat{F}}\) 的逐元素乘法以及\(\textcolor{blue}{1-S}\)和 \(\textcolor{blue}{\hat{F}}\) 的逐元素乘法来计算前景和背景RoC的平扫CT图像特征,其中\(\textcolor{blue}{\hat{F}}\)是由卷积层 \(\textcolor{blue}{f}\) 处理的归一化特征。与此同时,作者通过将\(\textcolor{blue}{\hat{F}}\)馈送到两个单独的卷积层中来获得ROC之外的特征的缩放和移位参数 \(\textcolor{blue}{\gamma \in R^{C \times H \times W}}\)\(\textcolor{blue}{\beta \in R^{C \times H \times W}}\)

  为了利用不同RoC之间的长程依赖关系,作者使用Transformer来加强RoC的前景或背景特征之间的交互。两个单独的transformer分别将前景 \(\textcolor{blue}{tok_f ∈ R^{n \times C}}\) 和背景RoC tokens \(\textcolor{blue}{tok_b ∈ R^{n \times C}}\)作为输入,对于前景tokens,两个独立的全连接层预测嵌入 \(\textcolor{blue}{z_A ∈ R^{n \times C}}\)\(\textcolor{blue}{z_A ∈ R^{n \times C}}\)去移动和缩放 \(\textcolor{blue}{\hat{F}}\)。为了将嵌入\(\textcolor{blue}{z_A}\)\(\textcolor{blue}{z_B}\)转换为区块级特征,作者首先计算嵌入和可学习参数之间的矩阵乘法,然后通过按元素乘以RoCs \(\textcolor{blue}{S}\) 分别获得前景相关的嵌入\(\textcolor{blue}{z^{\prime}_A}\)\(\textcolor{blue}{z^{\prime}_B}\)

  其中,\(\textcolor{blue}{W_A ∈ R^{K^2 \times n}} \)和 $ $ 表示可学习的参数。与前景部分类似,用于缩放背景特征的嵌入 \(\textcolor{blue}{z^{\prime}_C}\) 和 \(\textcolor{blue}{z^{\prime}_D}\) 通过以下公式进行计算:

  其中 \(\textcolor{blue}{W_C}\)\(\textcolor{blue}{W_D}\) 是可学习的参数。通过与位移相关的 \(\textcolor{blue}{z^′_A}\)\(\textcolor{blue}{z^′_C}\) 和与缩放相关的 \(\textcolor{blue}{z^′_B}\)\(\textcolor{blue}{z^′_D}\) 嵌入,我们将 RoC 的特征替换为分别为 \(\textcolor{blue}{z^′_A ⊕ z^′_C}\)\(\textcolor{blue}{z^′_B ⊕ z^′_D}\)

  最后,为了缩放和平移 \(\textcolor{blue}{\hat{F}}\),我们将 \(\textcolor{blue}{\gamma^{\prime}}\) 和 \(\textcolor{blue}{\beta^{\prime}}\) 分别输入到两个不同的卷积层 \(\textcolor{blue}{g}\)\(\textcolor{blue}{h}\) 中,并计算最终的输出特征 \(\textcolor{blue}{F^{\prime} = g(\gamma^{\prime}) ⊙ ̂ F ⊕ h(\beta^{\prime})}\) ,其中 \(\textcolor{blue}{⊙}\) 表示按元素乘法,\(\textcolor{blue}{⊕}\) 表示按元素加法。通过MATNorm,可以强调对比度增强区域,并可以开发这些区域之间的相关性,这进一步促进和促进CT翻译。

2.3 结构不变损失(SIL)

  事实上,CT 翻译应该保留合成 CT 图像中不变的生物结构。然而,现有方法无法保留 CT 结构,并可能在 CT 翻译的过程中改变它。为了解决这个问题,作者引入了结构不变损失来提取内在结构信息并使其在合成 CT 图像中保持不变。

图3.结构不变损失概述。其目的是通过将相关矩阵与单位矩阵相匹配来提取结构感知特征,并缩小普通 CT 图像和合成 CT 图像之间的结构感知特征之间的差异。

  如图3所示,作者将平扫CT图像及其增强图像视为正确对,以提取它们共享的结构信息,并将合成CT图像视为query image,以缩小其与平扫CT图像相比的结构差异。具体来说,给定一张平扫 CT 图像 \(\textcolor{blue}{x}\)、一张增强图像 \(\textcolor{blue}{x^{\prime}}\) 和合成 CT 图像 \(\textcolor{blue}{y'}\),我们在 \(\textcolor{blue}{x}\)\(\textcolor{blue}{x^{\prime}}\) 和 \(\textcolor{blue}{y^{\prime}}\) 上随机裁剪尺寸为 \(\textcolor{blue}{H_p × W_p}\)\(\textcolor{blue}{N_p}\) 个区域块。然后,将这些区域块输入到可训练特征提取器中,以获得相应的特征 \(\textcolor{blue}{f_x ∈ R^{N_p×C^′×N}}\)\(\textcolor{blue}{f_{x^′} ∈ R^{N_p×C^′×N}}\)\(\textcolor{blue}{f_{y^′} ∈ R^{N_p×C^′×N} (N = H^′× W^{\prime})}\),其中 \(\textcolor{blue}{C^{\prime}}\)\(\textcolor{blue}{H^{\prime}}\) 和 \(\textcolor{blue}{W^{\prime}}\) 表示提取的特征图的通道数、高度和宽度。利用每个区域块提取的特征,作者计算它们的自相似图以将内在结构表示为:

  其中 \(\textcolor{blue}{S_x ∈ R^{N_p×N}}\) 表示平扫 CT 图像中 query 点 \(\textcolor{blue}{f_{x_i} ∈ R^{N_p×C^′×1}}\) 与其他点 \(\textcolor{blue}{f_x}\) 之间的特征相关性。以类似的方式计算增强 CT 图像 \(\textcolor{blue}{S_x^{\prime} ∈ R^{N_p×N}}\) 和合成 CT 图像 \(\textcolor{blue}{S_y^{\prime} ∈ R^{N_p×N}}\) 的自相似图。然后,通过计算 \(\textcolor{blue}{S_x}\)\(\textcolor{blue}{S_{x^′}}\) 之间的相关矩阵 \(\textcolor{blue}{M_C}\) 来排除自相似图的冗余纹理:

  将 \(\textcolor{blue}{M_C}\) 与对角矩阵 \(\textcolor{blue}{I ∈ R^{N_p×N×N}}\) 进行比较: \(\textcolor{blue}{L_{cor} = ‖M_C − I‖_2}\),其中 \(\textcolor{blue}{M_C}\) 表示 CT 平扫图像与其增强图像的结构信息之间的相关性。 \(\textcolor{blue}{M_C}\)的对角线元素表示同一位置共享结构的关系,应该具有较强的响应性。 \(\textcolor{blue}{L_{cor}}\)尝试将相关矩阵的非对角线元素等同于0并分离不同位置的像素。通过这种方式,我们可以增强两幅CT图像的共享结构并消除不相关的纹理。

  为了最大化平扫 CT 图像 \(\textcolor{blue}{x}\) 和合成 CT 图像 \(\textcolor{blue}{y'}\) 之间的相互结构信息,我们计算它们的自相似图 \(\textcolor{blue}{S_x}\)\(\textcolor{blue}{S_y^{\prime}}\) 并通过余弦距离测量它们的结构差异。

  \(\textcolor{blue}{L_{cos}}\) 评估平扫 CT 图像和合成 CT 图像之间的结构差异,以进一步优化网络以保存 CT 结构。整体结构不变损失定义为:

  其中 \(\textcolor{blue}{λ_a}\)\(\textcolor{blue}{λ_b}\) 是平衡这两个损失函数的超参数。通过采用结构不变损失,可以减少提取的自相似性中的冗余特征,并使合成的CT图像的结构与平扫CT图像的结构保持一致。

3.完整的目标函数

  为了优化所提出的 MAFormer,我们利用结构不变损失来保留结构,利用对抗性损失来生成真实且高质量的图像,并利用重建损失来监督像素级的 CT 生成。

3.1 对抗loss

  为了使合成 CT 图像更加真实,在所提出的方法中应用了条件 GAN,其对抗性损失可以表示为:

  其中生成器 \(\textcolor{blue}{G}\) 生成以平扫 CT 图像 \(\textcolor{blue}{x}\) 和Mask Estimator生成的Mask image图像 \(\textcolor{blue}{M}\) 为条件的 CT 图像 \(\textcolor{blue}{G(x, M)}\),D 将合成 CT 图像与以平扫 CT 为条件的目标 CT 图像 \(\textcolor{blue}{y}\) 区分开来图像。在训练过程中,生成器的目标是最小化该目标,而判别器则试图最大化该目标。

3.2 重建损失

  为了提供逐像素监督,作者还在生成的 CT 图像 \(\textcolor{blue}{y^′}\) 和目标 CT 图像 \(\textcolor{blue}{y}\) 之间应用重建损失,定义为:\(\textcolor{blue}{L_{Rec} = ‖y − y^′‖_1}\)

  MAFormer 的总体目标函数如下:

  其中 \(\textcolor{blue}{λ_1}\)\(\textcolor{blue}{λ_2}\)\(\textcolor{blue}{λ_3}\) 是平衡这些损失函数的超参数。在这些目标函数的监督下,所提出的 MAFormer 不仅可以保证基本的像素级监督,而且可以生成高质量的逼真 CT 图像。  

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

    

  

  

  

  

  

CATALOG
  1. 1. 《Mask-aware tranformer with structure invariant loss for CT translation》
  2. 2. 一、摘要
  3. 3. 二、介绍
  4. 4. 三、相关工作
  5. 5. 四、方法
    1. 5.1. 2.Mask-Aware Transformer based network
      1. 5.1.1. 2.1 Mask Estimator
      2. 5.1.2. 2.2 Mask-Aware transformer based normalization (MATNorm)
      3. 5.1.3. 2.3 结构不变损失(SIL)
    2. 5.2. 3.完整的目标函数
      1. 5.2.1. 3.1 对抗loss
      2. 5.2.2. 3.2 重建损失