基于文本的扩散模型在生成和编辑方面取得了显著的成功,在增强视觉内容方面显示出巨大的前景。然而,由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,而扩散模型固有的随机性使情况变得复杂。我们的研究介绍了Upscale-A-Video,这是一种用于视频升级的文本引导潜在扩散框架。该框架通过两个关键机制确保时间连贯性:在本地,它将时间层集成到 U-Net 和 VAE-Decoder 中,保持短序列内的一致性;在全球范围内,无需训练,就引入了一个流引导的循环潜伏传播模块,通过在整个序列中传播和融合潜伏来增强整体视频稳定性。得益于扩散范式,本文的模型还提供了更大的灵活性,允许文本提示指导纹理创建,并允许可调节的噪声水平来平衡恢复和生成,从而在保真度和质量之间进行权衡。大量的实验表明,Upscale-A-Video在合成和真实世界的基准测试以及AI生成的视频中都超越了现有方法,展示了令人印象深刻的视觉真实感和时间一致性。
本文利用封装在预训练的文本到图像扩散模型中的先验知识来实现超分辨率(SR)。具体来说,通过使用时间感知编码器,可以在不改变预训练合成模型的情况下获得有希望的恢复结果,从而保留生成先验并最大限度地降低训练成本。为了弥补扩散模型固有的随机性导致的保真度损失,作者还采用了一个可控的特征包装模块,允许用户通过在推理过程中简单地调整标量值来平衡质量和保真度。此外,作者开发了一种渐进式聚合采样策略,以克服预训练扩散模型的固定尺寸限制,从而能够适应任何尺寸的分辨率。使用合成和真实世界的基准对方法进行全面评估,证明了其优于当前最先进的方法。
基于扩散的生成模型在基于文本的图像生成方面取得了显著的成功。然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑仍然具有挑战性,尤其是在视频中。在本文中,提出了 FateZero,这是一种基于零样本文本的编辑方法,适用于真实世界的视频,无需按提示训练或特定用途的mask。为了一致地编辑视频,作者提出了几种基于预训练模型的技术。首先,与简单的DDIM inversion技术相比,作者的方法在inversion过程中捕获中间注意力图,有效地保留了结构和运动信息。这些注意力图在编辑过程中直接融合,而不是在去噪过程中生成。为了进一步减少源视频的语义泄漏,将自注意力与源提示中的交叉注意力特征获得的混合掩码融合在一起。此外,还通过引入时空注意力来确保框架的一致性,对UNet的去噪机制进行了自我关注机制的改革。然而,简明扼要的是,本文的方法是第一个从经过训练的文本到图像模型中展示零镜头文本驱动视频风格和局部属性编辑能力的方法。改方法还拥有基于文本到视频模型的更好的零镜头形状感知编辑能力]。大量的实验证明了本文的方法比以前的作品具有更好的时间一致性和编辑能力。
对静止图像进行动画处理可提供引人入胜的视觉体验。传统的图像动画技术主要侧重于对具有随机动态(例如云和流体)或特定领域运动(例如人发或身体运动)的自然场景进行动画处理,因此限制了它们对更一般的视觉内容的适用性。为了克服这一限制,本文探索了开放域图像的动态内容合成,将它们转换为动画视频。其关键思想是通过将图像纳入生成过程作为指导,利用文本到视频扩散模型的运动先验。给定一个图像,首先使用query transformer将其投影到文本对齐的丰富上下文表示空间中,这有助于视频模型以兼容的方式消化图像内容。然而,一些视觉细节仍然难以保留在生成的视频中。为了补充更精确的图像信息,通过将整个图像与初始噪声连接起来,进一步将整个图像馈送到扩散模型。实验结果表明,本文提出的方法能够产生视觉上令人信服的、更合乎逻辑和自然的运动,以及与输入图像的更高一致性。比较评估表明,本文的方法明显优于现有竞争对手。
文本到视频生成旨在根据给定的提示生成视频。最近,一些商业视频模型已经能够生成具有最小噪点、出色细节和高美学分数的合理视频。然而,这些模型依赖于大规模、过滤良好、高质量的视频,而这些视频是社区无法访问的。许多现有的研究工作使用低质量的WebVid-10M数据集训练模型,很难生成高质量的视频,因为模型经过优化以适合WebVid-10M。在这项工作中,本文探索了从Stable Diffusion扩展的视频模型的训练方案,并研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性。首先分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。可以观察到的是,与仅训练时间模块相比,所有模块的完全训练会导致空间和时间模块之间的耦合更强。基于这种更强的耦合,作者通过用高质量图像微调空间模块,将分布转移到更高质量的水平,而不会出现运动退化,从而产生通用的高质量视频模型。进行评估以证明所提出的方法的优越性,特别是在图像质量、运动和概念构图方面。
视频生成越来越受到学术界和工业界的兴趣。尽管商业工具可以生成合理的视频,但可供研究人员和工程师使用的开源模型数量有限。在这项工作中,将介绍了两种用于高质量视频生成的扩散模型,即文本到视频(T2V)和图像到视频(I2V)模型。T2V 模型根据给定的文本输入合成视频,而 I2V 模型则包含额外的图像输入。本文提出的 T2V 模型可以生成分辨率为 1024 × 576 的逼真和电影质量的视频,在质量方面优于其他开源 T2V 模型。I2V 模型旨在制作严格遵守所提供参考图像内容的视频,保留其内容、结构和风格。该模型是第一个开源 I2V 基础模型,能够将给定图像转换为视频剪辑,同时保持内容保留约束。