本文将介绍的是由Runway公司推出的一款名为GEN-1模型,它可以由来改变视频或电影的视觉风格。Runway在其官方网站上发布了各种视频风格转换的演示视频(据说贵公司只在演示视频做的好,但实际效果很一般。。。)。而GEN-2也已经问世,但对于官方只发布了GEN-1相关的论文,所以这次就好介绍关于GEN-1的技术。
对可控性的追求作为视觉内容创作的更高标准,在可定制的图像合成方面取得了显着的进步。然而,由于时间动态的巨大变化和跨帧时间一致性的要求,实现可控视频合成仍然具有挑战性。基于合成生成的范式,这项工作提出了VideoComposer,它允许用户灵活地根据文本条件、空间条件,更重要的是时间条件来合成视频。具体来说,考虑到视频数据的特性,作者引入压缩视频的运动矢量作为显式控制信号,以提供有关时间动态的指导。此外,作者开发了一个时空条件编码器(STC-encoder),它作为一个统一的接口,可以有效地整合顺序输入的空间和时间关系,通过它,模型可以更好地利用时间条件,从而实现更高的交互性。 - 框架一致性。大量的实验结果表明,VideoComposer 能够以各种形式(例如文本描述、草图序列、参考视频,甚至简单的手工动作)在合成视频中同时控制空间和时间模式。
人工智能生成的内容最近引起了广泛关注,但逼真的视频合成仍然具有挑战性。尽管在这一领域已经进行了许多使用 GAN 和自回归模型的尝试,但生成视频的视觉质量和长度还远远不能令人满意。扩散模型最近显示出显着的结果,但需要大量的计算资源。为了解决这个问题,本文通过利用低维 3D 潜在空间引入轻量级视频扩散模型,在有限的计算预算下显着优于以前的像素空间视频扩散模型。此外,本文工作提出在潜在空间中进行分层扩散,以便可以生成超过一千帧的较长视频。为了进一步克服长视频生成的性能下降问题,还提出了条件潜在扰动和无条件指导,可以有效减轻视频长度扩展过程中的累积错误。对不同类别的小域数据集的广泛实验表明,该框架比以前的强基线生成更真实、更长的视频。此外,作者还提供了大规模文本到视频生成的扩展,以展示工作的优越性。
生成时间上一致的高保真视频是生成式建模研究中的一个重要里程碑。我们通过提出一个视频生成的扩散模型,显示出非常有前途的初步结果,朝着这一里程碑取得了进展。我们的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训练,我们发现这可以减少小批量梯度的方差并加快优化速度。为了生成长时间和更高分辨率的视频,我们引入了一种新的条件采样技术,用于空间和时间视频扩展,其性能优于以前提出的方法。我们提出了一个大型文本条件视频生成任务的第一个结果,以及视频预测和无条件视频生成的既定基准的最先进的结果。
本文将介绍DiT,来自《Scalable Diffusion Models with Transformers》,文章探索了一类基于Transformers架构的新型扩散模型。该方法使用训练图像的潜在扩散模型,用对潜在补丁(Latent patch)进行操作的Transformers替换常用的 U-Net 主干网。通过以 Gflops 衡量的前向传递复杂度来分析扩散变压器 (DiT) 的可扩展性。我们发现,通过增加Transformers的深度/宽度或增加输入令牌数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。除了拥有良好的可扩展性之外,我们最大的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准上的表现优于所有先前的扩散模型,在后者上实现了 2.27 的最先进的 FID。
本文提出了提出了 ControlNet,这是一种神经网络架构,可将空间调节控制添加到大型预训练文本到图像扩散模型中。 ControlNet 锁定可用于生产的大型扩散模型,并重用其经过数十亿图像预训练的深度且强大的编码层作为强大的骨干来学习一组不同的条件控制。神经架构与“零卷积”(零初始化卷积层)连接,参数从零逐渐增长,并确保没有有害噪声会影响微调。我们使用稳定扩散、使用单个或多个条件、有或没有提示来测试各种条件控制,例如边缘、深度、分割、人体姿势等。我们证明了 ControlNet 的训练对于小型(<50k)和大型(>1m)数据集都是稳健的。大量结果表明 ControlNet 可以促进更广泛的应用来控制图像扩散模型。