本次主题将要介绍DDIM inversion技术,它常用于文生图、基于文本的图像编辑和视频编辑。给定一个输入图像和描述该图像的源prompt,DDIM inversion的目标是仅修改prompt对原始输入图像进行编辑,它不仅能够将源prompt提供给模型来对输入图像进行近乎完美的重建,同时保留了直观的基于文本引导编辑能力。
生成对抗网络(GAN)和生成扩散模型(DM)已广泛应用于现实世界图像超分辨率(Real-ISR)中,以增强图像感知质量。然而,这些生成模型很容易产生视觉伪影和错误的图像结构,从而导致不自然的 Real-ISR 结果。基于自然图像表现出高自相似性的事实,即局部补丁在整个图像中可以有许多与其相似的补丁,在这项工作中,我们提出了一种简单而有效的自相似性损失(SSL)来提高生成的性能真实 ISR 模型,增强结构和纹理细节的幻觉,同时减少令人不快的视觉伪影。具体来说,我们计算真实图像的自相似图(SSG),并强制 Real-ISR 输出的 SSG 接近它。为了降低训练成本并关注边缘区域,我们从真实图像生成边缘掩模,并仅在掩模像素上计算 SSG。提议的 SSL 作为一般的即插即用的惩罚,可以轻松应用于现成的 Real-ISR 模型。我们的实验表明,通过与 SSL 结合,许多最先进的 Real-ISR 模型(包括基于 GAN 和 DM 的模型)的性能可以得到大幅提高,再现更加感知真实的图像细节,并消除许多错误的重建和视觉效果。
本篇文章主要是记录自己所看到的有关于自己项目相关的一些论文,主要是有关于如何利用GAN模型从平扫ct图像生成不同时期的增强ct的图像。
本文将介绍两篇GAN与配准网络结合的相关工作,分别是《Breaking the Dilemma of Medical Image-to-image Translation》 以及 《Multi-phase Liver-Specific DCE-MRI Translation via A Registration-Guided GAN》
非增强 CT (NCCT) 成像可能会降低图像对比度和解剖可见性,从而可能增加诊断的不确定性。相比之下,对比增强 CT (CECT) 有助于观察感兴趣区域 (ROI)。领先的生成模型,尤其是条件扩散模型,在医学图像模态变换方面表现出了卓越的能力。典型的条件扩散模型通常在分割标签的指导下生成图像,用于医疗模态变换。获得真实指导的机会有限且其基数低,可能会对条件扩散模型的实际临床应用构成挑战。为了实现生成质量和临床实践的平衡,我们提出了一种基于医学图像翻译潜在扩散模型(S2LDM)的新型Syncretic生成模型,该模型可以在推理过程中无需额外条件即可实现高保真重建。S2LDM通过融合编码和扩散增强了不同模态图像的相似性,促进了潜在空间中的融合信息,并在对比增强区域生成了具有更多细节的医学图像。然而,频域中的融合潜空间往往有利于较低频率,通常位于相同的解剖结构中。因此,S2LDM在整个训练过程中应用自适应相似性损失和动态相似性来指导生成,并补充高频细节的不足。定量实验验证了该方法在医学图像翻译中的有效性。
本文介绍了扩散强制,这是一种新的训练范式,其中训练扩散模型以对一组具有独立每个令牌噪声水平的标记进行去噪。通过训练因果下一个token预测模型来应用扩散强迫来对生成建模进行排序,以生成一个或多个未来token,而无需完全扩散过去的token。该方法被证明将下一个token预测模型的优势(如可变长度生成)与全序列扩散模型的优势相结合,如将采样引导到理想轨迹的能力。该方法提供了一系列额外的功能,例如(1)推出连续令牌序列,例如视频,其长度超过训练范围,其中基线发散和(2)新的采样和指导方案,这些方案独特地受益于扩散强迫的可变范围和因果架构,并在决策和规划任务中显着提高性能。除了在实证上的成功之外,该方法还被证明可以优化从真实联合分布中抽取的所有标记子序列的似然的变分下界。