扩散模型生成高质量图像,但需要数十次前向传递。我们引入了分布匹配蒸馏 (DMD),这是一种将扩散模型转换为一步图像生成器的过程,对图像质量的影响最小。我们强制单步图像生成器在分布级别匹配扩散模型,通过最小化近似 KL 散度,其梯度可以表示为 2 个得分函数之间的差异,其中一个目标分布和另一个由以下方法生成的合成分布我们的一步生成器。评分函数被参数化为在每个分布上分别训练的两个扩散模型。结合与多步扩散输出的大规模结构相匹配的简单回归损失,我们的方法优于所有已发布的少步扩散方法,在 ImageNet 64×64 上达到 2.62 FID,在零样本 COCO-30k 上达到 11.49 FID,与稳定扩散相当,但速度快几个数量级。利用 FP16 推理,我们的模型可以在现代硬件上生成 20 FPS 的图像。
扩散模型和流量匹配模型可以通过学习将噪声转移到数据来生成多样化且逼真的图像。然而,这些模型的采样涉及对许多神经网络通道的迭代去噪,使得生成缓慢且昂贵。以前的加速采样方法需要复杂的训练机制,例如多个训练阶段、多个网络或脆弱的调度。我们引入了快捷模型,这是一系列生成模型,它们使用单个网络和训练阶段在单个或多个采样步骤中生成高质量的样本。快捷模型不仅根据当前的噪声水平,而且根据所需的步长来调节网络,从而允许模型在生成过程中向前跳过。在各种采样步骤预算中,快捷模型始终能够比以前的方法(例如一致性模型和回流)产生更高质量的样本。与蒸馏相比,快捷模型降低了单个网络和训练阶段的复杂性,并且还允许在推理时改变步骤预算。
本技术报告介绍了 PIXART-δ,这是一种文本到图像合成框架,它将潜在一致性模型 (LCM) 和 ControlNet 集成到先进的 PIXART-α 模型中。 PIXART-α 因其通过非常高效的训练过程生成 1024 像素分辨率的高质量图像的能力而受到认可。 PIXART-δ中LCM的集成显着加快了推理速度,只需2-4步即可生成高质量图像。值得注意的是,PIXART-δ 在生成 1024 × 1024 像素图像方面突破了 0.5 秒,比 PIXART-α 提高了 7 倍。此外,PIXART-δ 设计为可在一天内在 32GB V100 GPU 上进行高效训练。凭借其 8 位推理能力(von Platen 等,2023),PIXART-δ 可以在 8GB GPU 内存限制内合成 1024px 图像,大大增强了其可用性和可访问性。此外,结合类似 ControlNet 的模块可以对文本到图像扩散模型进行细粒度控制。我们引入了一种新颖的 ControlNet-Transformer 架构,专为 Transformer 量身定制,可在生成高质量图像的同时实现明确的可控性。作为最先进的开源图像生成模型,PIXART-δ 为稳定扩散模型系列提供了一种有前途的替代方案,为文本到图像的合成做出了重大贡献。
最先进的文本到图像(T2I)模型需要大量的训练成本(例如数百万个 GPU 小时),严重阻碍了 AIGC 社区的根本创新,同时增加了二氧化碳排放。本文介绍了PIXART-α,一种基于Transformer的T2I扩散模型,其图像生成质量可与最先进的图像生成器(例如Imagen、SDXL甚至Midjourney)竞争,达到接近商业应用的标准。此外,它还支持高达 1024 × 1024 分辨率的高分辨率图像合成,且训练成本较低,如图 1 和图 2 所示。为了实现这一目标,提出了三个核心设计:(1)训练策略分解:我们设计了三种不同的训练策略分解:分别优化像素依赖性、文本图像对齐和图像美学质量的训练步骤; (2)高效的T2I Transformer:我们将交叉注意力模块合并到Diffusion Transformer(DiT)中,以注入文本条件并简化计算密集型的类条件分支; (3)高信息数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉语言模型自动标记密集的伪标题以辅助文本-图像对齐学习。因此,PIXART-α 的训练速度明显超过了现有的大规模 T2I 模型,例如,PIXARTα 仅花费了 Stable Diffusion v1.5 训练时间的 12%(∼753 vs. ∼6,250 A100 GPU 天),节省了近 300,000 美元(28,400 美元) vs. 320,000 美元)并减少 90% 的二氧化碳排放量。而且,与更大的SOTA模型RAPHAEL相比,我们的训练成本仅为1%。大量实验表明,PIXART-α 在图像质量、艺术性和语义控制方面表现出色。我们希望 PIXART-α 能够为 AIGC 社区和初创公司提供新的见解,以加速从头开始构建自己的高质量且低成本的生成模型
去噪扩散模型(DDM)最近在医学图像翻译领域获得了关注,因为其训练稳定性优于对抗模型。 DDM 学习多步去噪变换,以逐步将随机高斯噪声图像映射到目标模态图像,同时接收来自源模态图像的固定指导。由于这种去噪转换与任务相关的源到目标转换显着不同,DDM 可能会受到源模态指导较弱的影响。在这里,我们提出了一种新颖的自洽递归扩散桥(SelfRDB),以提高医学图像翻译的性能。与 DDM 不同,SelfRDB 采用新颖的前向过程,其起点和终点分别基于目标图像和源图像定义。整个过程中的中间图像样本通过正态分布表示,其均值作为起点和加性噪声的方差的凸组合。与在过程的起点规定零方差和在过程中点规定高方差的常规扩散桥不同,我们提出了一种新颖的噪声调度,其方差向终点单调增加,以提高泛化性能并促进之间的信息传递两种方式。为了进一步提高每个反向步骤中的采样精度,我们提出了一种新颖的采样程序,其中网络递归地生成目标图像的瞬态估计,直到收敛到自洽解。多对比 MRI 和 MRI-CT 翻译的综合分析表明,SelfRDB 比竞争方法具有更优越的性能。
生成模型有望彻底改变医学教育、机器人辅助手术和机器学习的数据增强。尽管在生成 2D 医学图像方面取得了进展,但临床视频生成的复杂领域在很大程度上仍未得到开发。本文介绍了 Endora,这是一种生成模拟临床内窥镜检查场景的医学视频的创新方法。我们提出了一种新颖的生成模型设计,它将精心制作的时空视频转换器与先进的 2D 视觉基础模型先验集成在一起,在视频生成过程中显式地建模时空动态。我们还开创了第一个使用视频生成模型进行内窥镜模拟的公共基准,并采用了现有的最先进方法来实现这一目标。 Endora 在生成内窥镜视频方面展示了卓越的视觉质量,在广泛的测试中超越了最先进的方法。此外,我们还探讨了该内窥镜模拟器如何支持下游视频分析任务,甚至生成具有多视图一致性的 3D 医疗场景。简而言之,Endora 标志着临床内窥镜研究中生成人工智能部署的显着突破,为医疗内容生成的进一步发展奠定了坚实的基础。