PhoenixPeng's blog.

PhoenixPeng's blog.

it's better to burn out than to fade away

视频扩散模型——8.ControlVideo
本次介绍一个名为 ControlVideo 的免训练框架,以实现自然高效的文本到视频生成。ControlVideo 改编自 ControlNet,利用了输入运动序列的粗略结构一致性,并引入了三个模块来改进视频生成。首先,为了保证帧之间的外观连贯性,ControlVideo 在自注意力模块中添加了完全跨帧交互。其次,为了减轻闪烁效应,它引入了一种交错帧平滑器,该平滑器在交替帧上采用帧插值。最后,为了有效地制作长视频,它利用了一个分层采样器,该采样器以整体连贯性单独合成每个短片。有了这些模块,ControlVideo 在数量和质量上都优于广泛的运动提示
扩散模型在时间序列的应用
扩散模型在生成与观察数据相似的样本方面具有出色的性能,目前广泛应用于图像、视频和文本合成中。本文主要介绍基于扩散模型的时间序列预测、插补和生成方法。最后,我们总结了基于扩散的方法的常见局限性,并强调了未来潜在的研究方向。
视频扩散模型——7.Latte
本文将介绍一种新颖的Latent Diffusion Transformer,即 Latte,用于视频生成。 Latte 首先从输入视频中提取时空token,然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量token进行建模,从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量,通过严格的实验分析确定了 Latte 的最佳实践,包括视频剪辑Patch嵌入、模型变体、时间步级信息注入、时间位置嵌入和学习策略。我们的综合评估表明,Latte 在四个标准视频生成数据集(即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD)上实现了最先进的性能。此外,我们将 Latte 扩展到文本到视频生成 (T2V) 任务,其中 Latte 取得了与最新 T2V 模型相当的结果。
详解Sora视频生成大模型背后的技术
文中将根据官方报告详细介绍Sora模型的架构、关键技术特点以及它在模拟数字世界中的应用。还将讨论Sora模型的训练过程,以及根据最近的一些论文推测一下可行性。
图像到图像翻译——2.MUNIT
无监督图像到图像的转换是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而无需查看相应图像对的任何示例。虽然这种条件分布本质上是多模态的,但现有方法做出了过于简化的假设,将其建模为确定性的一对一映射。因此,他们无法从给定的源域图像生成不同的输出。为了解决这个限制,本文提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式代码。为了将图像转换到另一个域,我们将其内容代码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架并建立了一些理论结果。与最先进的方法进行比较的广泛实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例样式图像来控制翻译输出的样式。
图像到图像翻译——1.UNIT
无监督图像到图像翻译旨在通过使用各个域中边缘分布的图像来学习不同域中图像的联合分布。由于存在无限组可以达到给定边缘分布的联合分布,因此在没有额外假设的情况下,人们无法从边缘分布推断出任何有关联合分布的信息。为了解决这个问题,我们做出了共享潜在空间假设,并提出了一种基于耦合 GAN 的无监督图像到图像转换框架。我们将所提出的框架与竞争方法进行比较,并在各种具有挑战性的无监督图像翻译任务上提供高质量的图像翻译结果,包括街景图像翻译、动物图像翻译和人脸图像翻译。我们还将所提出的框架应用于领域适应,并在基准数据集上实现最先进的性能。
avatar
PhoenixPeng
witness me