一、引言
磁共振成像(MRI)对于脑肿瘤患者的诊断、治疗和随访至关重要。多种 MRI 模式为表征脑肿瘤和加强患者管理提供补充信息。然而,获取多模态 MRI 既耗时又昂贵,而且有时在特定模式下不可行,例如由于造影剂的危险。跨模态 MRI 合成可以建立从可用 MRI 模态的已知域到缺失模态的目标域的映射,有望有效生成缺失的 MRI 模态。
利用多模态 MRI(即多对一翻译)的合成方法优于单模态模型,后者从另一种可用模态(即一对一翻译)生成缺失的模态。传统的多模态方法,例如基于稀疏编码、patch-based 和 atlas-based 的方法,高度依赖源域和目标域的对齐精度,并且可扩展性很差。最近的生成对抗网络(GAN)及其变体,例如 MM-GAN 、DiamondGAN 和 ProvoGAN,已经基于多模态 MRI 取得了成功,并通过引入多模态编码得到了进一步改进、增强的架构和新颖的学习策略。
尽管取得了成功,但基于 GAN 的模型在复杂的多模态数据分布建模方面仍面临对抗性学习能力有限的挑战。最近的研究表明,GAN 的性能可能仅限于处理和生成可变性较小的数据。此外,GAN 的超参数和正则化项通常需要微调,否则通常会导致梯度消失和模式崩溃。
扩散模型(DM)在合成自然图像方面取得了最先进的性能,有望改进 MRI 合成模型。它在模型训练方面表现出优越性,生成复杂多样的图像,同时降低模态崩溃的风险。例如,Lyu等人使用扩散和分数匹配模型来量化蒙特卡罗采样的模型不确定性,并使用不同的采样方法对CTtoMRI 生成的输出进行平均; Ozbey 等人利用对抗性训练来增加逆扩散过程的步长,并进一步设计了用于不配对 MRI 翻译的循环一致架构。
然而,当前基于 DM 的方法侧重于一对一 MRI 转换,有望通过多对一方法进行改进,这需要专门的设计来平衡多模态 MRI 引入的多种条件。此外,由于DM在原始图像域中运行,所有马尔可夫状态都保存在内存中,导致过多的内存负担并降低了多对一翻译的可行性。此外,由于噪声随机性,扩散去噪过程往往会改变目标图像的原始分布结构,渲染DM常常忽略医学图像中嵌入的解剖结构的一致性,导致临床相关性较差的结果。最后,DM 以其扩散采样速度慢而闻名,对其广泛的临床应用提出了挑战。
作者提出了一种基于 DM 的多模态 MRI 合成模型 CoLa-Diff,它有助于潜在空间中的多对一 MRI 转换,并通过加速采样保留解剖结构。本文的主要贡献包括:
🟣 提出一个基于DM的多对一MRI合成模型。
🟠设计了一个定制的架构来促进潜在空间中的扩散操作,例如相似协作过滤,以降低潜在空间中过度信息压缩和高维噪声的风险。
🟢在扩散过程的每个步骤中引入大脑区域的结构指导,保留解剖结构并提高合成质量。
🔵作者提出了一种自动调整条件权重以平衡多个条件并最大化利用相关多模态信息的机会的方法。
二、多条件潜在扩散模型
图1:CoLa-Diff 示意图。在前向扩散过程中,原始图像\(x_0\)使用编码器 \(E\)压缩得到 \(k_0\),经过 \(t\) 步添加噪声后,图像变成 \(k_t\)。在反向扩散过程中,潜在空间网络 \(θ (k_t, t, y)\) 预测添加的噪声,并将其他可用模态和解剖掩模作为结构指导编码为 \(y\),然后由自动权重适应块 \(W\) 处理并嵌入到潜在空间网络。从网络学习到的分布进行采样得到 \(k_0\) ,然后将 \(k_0\) 通过 \(D\) 解码以获得合成图像。
图1说明了模型架构。作为一种潜在扩散模型,CoLa-diff 在紧凑且低维的潜在空间中集成了来自可用 MRI 对比的多条件 \(b\),以指导缺失模态 $x ∈ RH×W ×1 $的生成。准确地说,b 构成可用对比度和从可用对比度生成的解剖结构掩模。与[8]类似,CoLa-Diff 涉及正向和反向扩散过程。在前向扩散过程中,x0由E编码产生κ0,然后经过T个扩散步骤逐渐添加噪声并生成一系列中间表示:{κ0,... 。 。 ,κT}。第t个中间表示记为κt,表示为: