Medical Diffusion Model--12.Class-Guided I2I Diffu

 2024/06/25 

一、引言

近年来，生成建模取得了显著进展，特别是在文本到图像和文本到视频合成领域。尽管取得了这些进展，但医学领域尚未充分利用大规模基础模型的潜力。然而，合成数据生成在加速医学研究方面具有巨大的前景，因为医学影像研究在数据方面面临重大挑战，例如患者隐私问题、类别分布不平衡、对训练有素的临床医生的需求以及大量公开可用数据集的稀缺性。

医学图像和放射学报告的配对数据集为文本条件医学图像生成提供了巨大的潜力。这是因为放射学报告提供了对患者病情的全面评估，从而有助于对医学图像的有效描述。因此，胸片和放射学报告的整合引起了人们对文本到图像生成的极大兴趣。这种兴趣在一定程度上归因于多个数据集和预训练的开源文本到图像模型的可用性。尽管取得了这些进展，但之前没有研究探索过使用医学语言文本提示生成 3D 医学图像的文本条件，例如计算机断层扫描（CT）和磁共振成像（MRI）。这种研究差距是由于缺乏可用的配对放射学报告-3D医学成像数据，以及与2D生成工作相比，文本条件视频或3D图像生成模型的高计算要求，因此开源工作数量有限。

在本文中，作者解决了这些局限性，并提出了第一种文本条件胸部CT生成方法（图1），使整个框架完全开源，以加速3D医学成像研究。 GenerateCT 由一个预训练的 T5X 文本编码器、一个基于Transformer的文本条件 3D 胸部 CT 生成架构，以及一个文本条件空间超分辨率扩散模型组成（图 2）。目前，没有公开可用的带有放射学报告的3D医学图像数据集可用于训练GenerateCT。因此，作者还引入了一种新的胸部 CT 体积数据集和放射学报告，以解决这一局限性。

生成 CT 体积本质上是由一系列 2D 切片组成的 3D 图像，其计数决定了深度，这带来了一个显着的挑战：开发一个紧凑的模型，该模型不仅可以处理可变数量的轴向切片，还可以将token数量保持在最低限度以提高计算效率。为了解决这个问题，本文的工作引入了CT视觉转换器（CT-ViT），这是一个从以前的工作中汲取灵感并进一步改进的模型，并进一步为3D CT生成量身定制。CT-ViT 巧妙地压缩所有维度的 CT 体积，同时深度保持自动回归性，从而能够生成具有可变切片数量的 CT 体积。

在使用 CT-ViT 获得 3D CT 体积的压缩表示后，可以将文本到 CT 任务构建为sequence to sequence问题，以根据相应的文本嵌入预测 CT token。从先前的图像生成工作中汲取灵感，本文的方法采用了能够同时预测多个CT token的双向 transformer。使用与mask 预测密切相关的代理任务对transformer进行训练。在推理中，作者最初将所有 CT token指定为masked token。随后，在每个推理步骤中，对所有masked的 CT token进行并行预测，根据文本嵌入和未屏蔽（预测）CT token对其进行条件调整。

作者还采用文本条件空间超分辨率扩散模型，使用基于转换器的方法生成低分辨率3D胸部CT，并以医学语言文本提示为条件。生成的 CT 和相应的文本提示用作后续扩散模型的调节输入。该策略产生空间上采样CT，其灵感来自级联扩散模型（CDM）。

作为第一个探索文本条件 3D 医学图像生成的公司，GenerateCT 缺乏用于比较的基准。因此，我们通过将生成的 CT 体积应用于潜在的真实世界临床应用来验证我们的框架。我们检查在生成的 CT 体积上训练是否与在真实 CT 体积上进行训练以进行多异常分类产生相似的性能。实验和结果表明，GenerateCT 能够生成逼真的、高保真 3D 胸部 CT 体积，与自由格式的医学语言文本提示一致。我们公开我们的代码和训练模型，以促进胸部 CT 体积的生成，鼓励进一步研究，并为未来的研究建立基线。

二、方法

1.数据预处理

数据集包括 25,701 个非增强 3D 胸部 CT 体积，分辨率为 512×512，轴向切片数从 100 到 600 不等。这些体积来自21,314例独特的患者，并使用适用于不同窗口设置的多种方法进行了重建。考虑到不同的重建方法，这导致总共有 49,138 个 CT 体积。作者将所有患者划分为一个包含 20,000 名独特患者的训练集和一个包含 1,314 名独特患者的测试集，确保没有患者重叠。每张 CT 体积都附有元数据，包括患者的年龄、性别和影像学细节。此外，这些卷还与放射学报告配对，这些报告分为单独的部分：临床信息、技术、发现和印象。使用印象部分和元数据将文本提示格式化为 {age} years old {}： {impression}，如图 1 所示。使用从元数据中检索到的斜率和截距值将 CT 体积转换为它们各自的 Hounsfield 单位（HU）。这些值被裁剪到[−1000 HU，+1000 HU]的范围，代表HU的实际下限和上限。为了训练文本条件的 CT 生成网络，这些值被归一化为 [−1， 1]。但是，对于扩散模型，这些值被归一化为 [0， 1]。

图 1：GenerateCT 是一个级联框架，它使用医学语言文本提示作为条件输入，生成具有任意切片编号的高保真 3D 胸部 CT 体积。

原文作者：PhoenixPeng

原文链接：http://example.com/2024/06/25/Medical%20Diffusion%20Model%E2%80%94%E2%80%9412.Class-Guided%20I2I%20Diffuison/

发表日期：June 25th 2024, 8:30:29 am

更新日期：July 24th 2024, 8:25:36 am

Next Post

视频扩散模型——15.Upscale-A-Video
Previous Post

扩散模型——12.StableSR

CATALOG

1. 一、引言
2. 二、方法
3. 1.数据预处理