PhoenixPeng's blog

视频扩散模型——6.Video LCM

一致性模型在高效图像生成方面表现出了强大的能力，并允许在几个采样步骤内进行合成，从而减轻了扩散模型中的高计算成本。然而，在更具挑战性和资源消耗的视频生成中，一致性模型的探索仍然较少。在本报告中，我们提出了 VideoLCM 框架来填补这一空白，该框架利用图像生成的一致性模型的概念，以最少的步骤有效地合成视频，同时保持高质量。 VideoLCM 基于现有的潜在视频扩散模型，并结合了用于训练潜在一致性模型的一致性蒸馏技术。实验结果揭示了我们的 VideoLCM 在计算效率、保真度和时间一致性方面的有效性。值得注意的是，VideoLCM 只需四个采样步骤即可实现高保真、流畅的视频合成，展示了实时合成的潜力。我们希望VideoLCM能够作为后续研究的简单而有效的基线。

2023/12/26

视频扩散模型——4.Gen1

本文将介绍的是由Runway公司推出的一款名为GEN-1模型，它可以由来改变视频或电影的视觉风格。Runway在其官方网站上发布了各种视频风格转换的演示视频（据说贵公司只在演示视频做的好，但实际效果很一般。。。）。而GEN-2也已经问世，但对于官方只发布了GEN-1相关的论文，所以这次就好介绍关于GEN-1的技术。

2023/12/26

视频扩散模型——3.VideoComposer

对可控性的追求作为视觉内容创作的更高标准，在可定制的图像合成方面取得了显着的进步。然而，由于时间动态的巨大变化和跨帧时间一致性的要求，实现可控视频合成仍然具有挑战性。基于合成生成的范式，这项工作提出了VideoComposer，它允许用户灵活地根据文本条件、空间条件，更重要的是时间条件来合成视频。具体来说，考虑到视频数据的特性，作者引入压缩视频的运动矢量作为显式控制信号，以提供有关时间动态的指导。此外，作者开发了一个时空条件编码器（STC-encoder），它作为一个统一的接口，可以有效地整合顺序输入的空间和时间关系，通过它，模型可以更好地利用时间条件，从而实现更高的交互性。 - 框架一致性。大量的实验结果表明，VideoComposer 能够以各种形式（例如文本描述、草图序列、参考视频，甚至简单的手工动作）在合成视频中同时控制空间和时间模式。

2023/12/26

视频扩散模型——2.LVDM

人工智能生成的内容最近引起了广泛关注，但逼真的视频合成仍然具有挑战性。尽管在这一领域已经进行了许多使用 GAN 和自回归模型的尝试，但生成视频的视觉质量和长度还远远不能令人满意。扩散模型最近显示出显着的结果，但需要大量的计算资源。为了解决这个问题，本文通过利用低维 3D 潜在空间引入轻量级视频扩散模型，在有限的计算预算下显着优于以前的像素空间视频扩散模型。此外，本文工作提出在潜在空间中进行分层扩散，以便可以生成超过一千帧的较长视频。为了进一步克服长视频生成的性能下降问题，还提出了条件潜在扰动和无条件指导，可以有效减轻视频长度扩展过程中的累积错误。对不同类别的小域数据集的广泛实验表明，该框架比以前的强基线生成更真实、更长的视频。此外，作者还提供了大规模文本到视频生成的扩展，以展示工作的优越性。

2023/12/26

视频扩散模型——1.Video Diffusion Model

生成时间上一致的高保真视频是生成式建模研究中的一个重要里程碑。我们通过提出一个视频生成的扩散模型，显示出非常有前途的初步结果，朝着这一里程碑取得了进展。我们的模型是标准图像扩散架构的自然扩展，它可以从图像和视频数据中进行联合训练，我们发现这可以减少小批量梯度的方差并加快优化速度。为了生成长时间和更高分辨率的视频，我们引入了一种新的条件采样技术，用于空间和时间视频扩展，其性能优于以前提出的方法。我们提出了一个大型文本条件视频生成任务的第一个结果，以及视频预测和无条件视频生成的既定基准的最先进的结果。

2023/12/25

扩散模型——11.DiT

本文将介绍DiT，来自《Scalable Diffusion Models with Transformers》，文章探索了一类基于Transformers架构的新型扩散模型。该方法使用训练图像的潜在扩散模型，用对潜在补丁（Latent patch）进行操作的Transformers替换常用的 U-Net 主干网。通过以 Gflops 衡量的前向传递复杂度来分析扩散变压器 (DiT) 的可扩展性。我们发现，通过增加Transformers的深度/宽度或增加输入令牌数量，具有较高 Gflops 的 DiT 始终具有较低的 FID。除了拥有良好的可扩展性之外，我们最大的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准上的表现优于所有先前的扩散模型，在后者上实现了 2.27 的最先进的 FID。

2023/12/21

PhoenixPeng's blog.