PhoenixPeng's blog.

PhoenixPeng's blog.

it's better to burn out than to fade away

扩散模型在时间序列的应用
扩散模型在生成与观察数据相似的样本方面具有出色的性能,目前广泛应用于图像、视频和文本合成中。本文主要介绍基于扩散模型的时间序列预测、插补和生成方法。最后,我们总结了基于扩散的方法的常见局限性,并强调了未来潜在的研究方向。
视频扩散模型——7.Latte
本文将介绍一种新颖的Latent Diffusion Transformer,即 Latte,用于视频生成。 Latte 首先从输入视频中提取时空token,然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量token进行建模,从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量,通过严格的实验分析确定了 Latte 的最佳实践,包括视频剪辑Patch嵌入、模型变体、时间步级信息注入、时间位置嵌入和学习策略。我们的综合评估表明,Latte 在四个标准视频生成数据集(即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD)上实现了最先进的性能。此外,我们将 Latte 扩展到文本到视频生成 (T2V) 任务,其中 Latte 取得了与最新 T2V 模型相当的结果。
详解Sora视频生成大模型背后的技术
文中将根据官方报告详细介绍Sora模型的架构、关键技术特点以及它在模拟数字世界中的应用。还将讨论Sora模型的训练过程,以及根据最近的一些论文推测一下可行性。
图像到图像翻译——2.MUNIT
无监督图像到图像的转换是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而无需查看相应图像对的任何示例。虽然这种条件分布本质上是多模态的,但现有方法做出了过于简化的假设,将其建模为确定性的一对一映射。因此,他们无法从给定的源域图像生成不同的输出。为了解决这个限制,本文提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式代码。为了将图像转换到另一个域,我们将其内容代码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架并建立了一些理论结果。与最先进的方法进行比较的广泛实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例样式图像来控制翻译输出的样式。
图像到图像翻译——1.UNIT
无监督图像到图像翻译旨在通过使用各个域中边缘分布的图像来学习不同域中图像的联合分布。由于存在无限组可以达到给定边缘分布的联合分布,因此在没有额外假设的情况下,人们无法从边缘分布推断出任何有关联合分布的信息。为了解决这个问题,我们做出了共享潜在空间假设,并提出了一种基于耦合 GAN 的无监督图像到图像转换框架。我们将所提出的框架与竞争方法进行比较,并在各种具有挑战性的无监督图像翻译任务上提供高质量的图像翻译结果,包括街景图像翻译、动物图像翻译和人脸图像翻译。我们还将所提出的框架应用于领域适应,并在基准数据集上实现最先进的性能。
Medical Diffusion Model——9.FDDM
扩散模型在生成用于医学图像翻译的高质量图像以帮助疾病诊断、定位和治疗方面已表现出巨大的潜力。然而,当前的扩散模型在实现忠实的图像转换(可以准确地保留医学图像的解剖结构)方面取得的成功有限,特别是对于不配对的数据集。保留结构和解剖细节对于可靠的医疗诊断和治疗计划至关重要,因为结构不匹配可能导致疾病误识别和治疗错误。在这项研究中,我们引入了频率解耦扩散模型(FDDM),这是一种新颖的框架,可以在翻译过程中解耦傅里叶域中医学图像的频率分量,以实现结构保留的高质量图像转换。 FDDM应用无监督频率转换模块将源医学图像转换为特定于频率的输出,然后使用特定于频率的信息来指导后续的扩散模型以实现最终的源到目标图像转换。我们使用公共大脑 MR 到 CT 翻译数据集对 FDDM 进行了广泛的评估,显示了其相对于其他基于 GAN、VAE 和扩散的模型的优越性能。评估的指标包括FID、峰值信噪比 (PSNR) 和结构相似性指数测量 (SSIM)。 FDDM的 FID 为 29.88,不到第二好的一半。这些结果证明了 FDDM 在生成高度真实的目标域图像同时保持翻译解剖结构的忠实度方面的能力。
avatar
PhoenixPeng
witness me