PhoenixPeng's blog

视频扩散模型——16.Diffuison Forcing

本文介绍了扩散强制，这是一种新的训练范式，其中训练扩散模型以对一组具有独立每个令牌噪声水平的标记进行去噪。通过训练因果下一个token预测模型来应用扩散强迫来对生成建模进行排序，以生成一个或多个未来token，而无需完全扩散过去的token。该方法被证明将下一个token预测模型的优势（如可变长度生成）与全序列扩散模型的优势相结合，如将采样引导到理想轨迹的能力。该方法提供了一系列额外的功能，例如（1）推出连续令牌序列，例如视频，其长度超过训练范围，其中基线发散和（2）新的采样和指导方案，这些方案独特地受益于扩散强迫的可变范围和因果架构，并在决策和规划任务中显着提高性能。除了在实证上的成功之外，该方法还被证明可以优化从真实联合分布中抽取的所有标记子序列的似然的变分下界。

2024/07/08

视频扩散模型

视频扩散模型——15.Upscale-A-Video

基于文本的扩散模型在生成和编辑方面取得了显著的成功，在增强视觉内容方面显示出巨大的前景。然而，由于对输出保真度和时间一致性的高要求，将这些模型应用于视频超分辨率仍然具有挑战性，而扩散模型固有的随机性使情况变得复杂。我们的研究介绍了Upscale-A-Video，这是一种用于视频升级的文本引导潜在扩散框架。该框架通过两个关键机制确保时间连贯性：在本地，它将时间层集成到 U-Net 和 VAE-Decoder 中，保持短序列内的一致性;在全球范围内，无需训练，就引入了一个流引导的循环潜伏传播模块，通过在整个序列中传播和融合潜伏来增强整体视频稳定性。得益于扩散范式，本文的模型还提供了更大的灵活性，允许文本提示指导纹理创建，并允许可调节的噪声水平来平衡恢复和生成，从而在保真度和质量之间进行权衡。大量的实验表明，Upscale-A-Video在合成和真实世界的基准测试以及AI生成的视频中都超越了现有方法，展示了令人印象深刻的视觉真实感和时间一致性。

2024/06/25

扩散模型——12.StableSR

本文利用封装在预训练的文本到图像扩散模型中的先验知识来实现超分辨率（SR）。具体来说，通过使用时间感知编码器，可以在不改变预训练合成模型的情况下获得有希望的恢复结果，从而保留生成先验并最大限度地降低训练成本。为了弥补扩散模型固有的随机性导致的保真度损失，作者还采用了一个可控的特征包装模块，允许用户通过在推理过程中简单地调整标量值来平衡质量和保真度。此外，作者开发了一种渐进式聚合采样策略，以克服预训练扩散模型的固定尺寸限制，从而能够适应任何尺寸的分辨率。使用合成和真实世界的基准对方法进行全面评估，证明了其优于当前最先进的方法。

2024/06/18

扩散模型

视频扩散模型——5.FateZero

基于扩散的生成模型在基于文本的图像生成方面取得了显著的成功。然而，由于它在生成过程中包含巨大的随机性，因此将此类模型应用于现实世界的视觉内容编辑仍然具有挑战性，尤其是在视频中。在本文中，提出了 FateZero，这是一种基于零样本文本的编辑方法，适用于真实世界的视频，无需按提示训练或特定用途的mask。为了一致地编辑视频，作者提出了几种基于预训练模型的技术。首先，与简单的DDIM inversion技术相比，作者的方法在inversion过程中捕获中间注意力图，有效地保留了结构和运动信息。这些注意力图在编辑过程中直接融合，而不是在去噪过程中生成。为了进一步减少源视频的语义泄漏，将自注意力与源提示中的交叉注意力特征获得的混合掩码融合在一起。此外，还通过引入时空注意力来确保框架的一致性，对UNet的去噪机制进行了自我关注机制的改革。然而，简明扼要的是，本文的方法是第一个从经过训练的文本到图像模型中展示零镜头文本驱动视频风格和局部属性编辑能力的方法。改方法还拥有基于文本到视频模型的更好的零镜头形状感知编辑能力]。大量的实验证明了本文的方法比以前的作品具有更好的时间一致性和编辑能力。

2024/06/11

视频扩散模型——14.DynamiCrafter

对静止图像进行动画处理可提供引人入胜的视觉体验。传统的图像动画技术主要侧重于对具有随机动态（例如云和流体）或特定领域运动（例如人发或身体运动）的自然场景进行动画处理，因此限制了它们对更一般的视觉内容的适用性。为了克服这一限制，本文探索了开放域图像的动态内容合成，将它们转换为动画视频。其关键思想是通过将图像纳入生成过程作为指导，利用文本到视频扩散模型的运动先验。给定一个图像，首先使用query transformer将其投影到文本对齐的丰富上下文表示空间中，这有助于视频模型以兼容的方式消化图像内容。然而，一些视觉细节仍然难以保留在生成的视频中。为了补充更精确的图像信息，通过将整个图像与初始噪声连接起来，进一步将整个图像馈送到扩散模型。实验结果表明，本文提出的方法能够产生视觉上令人信服的、更合乎逻辑和自然的运动，以及与输入图像的更高一致性。比较评估表明，本文的方法明显优于现有竞争对手。

2024/05/22

视频扩散模型——13.VideoCrafter2

文本到视频生成旨在根据给定的提示生成视频。最近，一些商业视频模型已经能够生成具有最小噪点、出色细节和高美学分数的合理视频。然而，这些模型依赖于大规模、过滤良好、高质量的视频，而这些视频是社区无法访问的。许多现有的研究工作使用低质量的WebVid-10M数据集训练模型，很难生成高质量的视频，因为模型经过优化以适合WebVid-10M。在这项工作中，本文探索了从Stable Diffusion扩展的视频模型的训练方案，并研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性。首先分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。可以观察到的是，与仅训练时间模块相比，所有模块的完全训练会导致空间和时间模块之间的耦合更强。基于这种更强的耦合，作者通过用高质量图像微调空间模块，将分布转移到更高质量的水平，而不会出现运动退化，从而产生通用的高质量视频模型。进行评估以证明所提出的方法的优越性，特别是在图像质量、运动和概念构图方面。

2024/05/18

PhoenixPeng's blog.