PhoenixPeng's blog

视频扩散模型——12.VideoCrafter1

视频生成越来越受到学术界和工业界的兴趣。尽管商业工具可以生成合理的视频，但可供研究人员和工程师使用的开源模型数量有限。在这项工作中，将介绍了两种用于高质量视频生成的扩散模型，即文本到视频（T2V）和图像到视频（I2V）模型。T2V 模型根据给定的文本输入合成视频，而 I2V 模型则包含额外的图像输入。本文提出的 T2V 模型可以生成分辨率为 1024 × 576 的逼真和电影质量的视频，在质量方面优于其他开源 T2V 模型。I2V 模型旨在制作严格遵守所提供参考图像内容的视频，保留其内容、结构和风格。该模型是第一个开源 I2V 基础模型，能够将给定图像转换为视频剪辑，同时保持内容保留约束。

2024/05/17

视频扩散模型--11.FRESCO

文本到图像扩散模型的显著功效激发了人们对其在视频领域的潜在应用的广泛探索。零样本方法旨在将图像扩散模型扩展到视频中，而无需模型训练。最近的方法主要集中在将帧间对应关系纳入注意机制。但是，在确定在何处处理有效特征时施加的软约束有时可能不够充分，从而导致时间不一致。在本文中，引入了FRESCO，帧内对应关系以及帧间通信，以建立更强大的时空约束。此增强功能可确保跨帧对语义相似的内容进行更一致的转换。除了单纯的注意力引导之外，该方法还涉及对特征的显式更新，以实现与输入视频的高度时空一致性，从而显着提高最终翻译视频的视觉连贯性。大量的实验证明了我们提出的框架在产生高质量、连贯视频方面的有效性，标志着对现有零样本方法的显着改进。

2024/05/16

视频扩散模型--10.FLATTEN

文本到视频编辑旨在根据文本提示编辑源视频的视觉外观。此任务的一个主要挑战是确保编辑视频中的所有帧在视觉上保持一致。最近的工作将先进的文本到图像扩散模型应用于这项任务，将U-Net中的2D空间注意力膨胀为时空注意力。虽然可以通过时空注意添加时间上下文，但它可能会为每个patch引入一些不相关的信息，从而导致编辑的视频不一致。在本文中，作者首次将光流引入扩散模型U-Net的注意力模块中，以解决文本到视频编辑的不一致问题。该方法 FLATTEN 强制跨不同帧的同一流路上的patch在注意力模块中相互关注，从而提高编辑视频的视觉一致性。此外，该方法是免训练的，可以无缝集成到任何基于扩散的文本到视频编辑方法中，并提高其视觉一致性。在现有的文本到视频编辑基准上的实验结果表明，我们提出的方法实现了新的最先进的性能。特别是，该方法在保持编辑视频的视觉一致性方面表现出色。

2024/05/15

Medical Diffusion model——11.ContourDiff

通过不同模式（例如，CT 到 MRI）准确转换医学图像具有许多下游临床和机器学习应用。虽然已经提出了几种方法来实现这一目标，但它们通常优先考虑与输出域特征相关的感知质量，而不是保持解剖学保真度。然而，在翻译过程中保持解剖结构对于许多任务至关重要，例如，当利用来自输入域的掩码来开发将图像翻译到输出域的分割模型时。为了应对这些挑战，本文提出了ContourDiff，这是一种利用图像的领域不变解剖轮廓表示的新颖框架。这些表示很容易从图像中提取，但对其解剖内容形成了精确的空间约束。引入了一种扩散模型，该模型将来自任意输入域的图像的轮廓表示转换为感兴趣输出域中的图像。通过在每个扩散采样步骤中应用轮廓作为约束，确保了解剖内容的保存。通过使用原始 CT 掩模在从 CT 转换为 MRI 的图像上训练分割模型来评估我们的方法，并在真实 MRI 上测试其性能。我们的方法明显优于其他不成对的图像翻译方法，此外，在训练期间无需访问任何输入域信息。

2024/05/13

视频扩散模型——9.Tunnel Try-on

视频试穿（video try-on）是一项具有挑战性的任务，在以前的作品中没有得到很好的解决。主要障碍在于保留服装的细节并同时对连贯的动作进行建模。面对这些困难，本文通过提出一个名为“Tunnel Try-on”的基于扩散的框架来解决视频试穿问题。核心思想是在输入视频中挖掘一个“对焦隧道”，在服装区域周围提供特写镜头。我们放大了隧道中的区域，以更好地保留服装的细节。为了生成连贯的运动，我们首先利用卡尔曼滤波在对焦隧道中构建平滑的裁剪，并将隧道的位置嵌入注入注意力层，以提高生成视频的连续性。此外，我们还开发了一种环境编码器，用于提取隧道外部的上下文信息作为补充线索。借助这些技术，Tunnel Try-on 保留了服装的精细细节，并合成了稳定流畅的视频。Tunnel Try-on 展示了重大进步，可以被视为在视频中应用虚拟试妆的商业级的首次尝试。

2024/05/08

Medical Diffusion Model——10.CoLa-Diff

MRI 合成有望减轻临床实践中缺少 MRI 模式的挑战。通过对复杂且可变的数据分布进行建模，扩散模型已成为一种有效的图像合成技术。然而，大多数基于扩散的 MRI 合成模型都使用单一模式。由于它们在原始图像域中操作，因此它们是内存密集型的并且对于多模态合成来说不太可行。此外，它们常常无法保留 MRI 中的解剖结构。此外，平衡多模态 MRI 输入的多种条件对于多模态合成至关重要。在这里，我们提出了第一个基于扩散的多模态 MRI 合成模型，即条件潜在扩散模型（CoLa-Diff）。为了减少内存消耗，我们设计了 CoLa-Diff 在潜在空间中运行。我们提出了一种新颖的网络架构，例如类似的协作过滤，来解决潜在空间中可能的压缩和噪声。为了更好地保持解剖结构，引入脑区域掩模作为密度分布的先验来指导扩散过程。我们进一步提出自动权重适应以有效地利用多模态信息。我们的实验表明，CoLa-Diff 优于其他最先进的 MRI 合成方法，有望成为多模态 MRI 合成的有效工具。

2024/05/03

PhoenixPeng's blog.