PhoenixPeng's blog.

PhoenixPeng's blog.

it's better to burn out than to fade away

扩散模型——12.ADD
本文将介绍对抗性扩散蒸馏 (ADD),这是一种新颖的训练方法,只需 1-4 个步骤即可有效地对大规模基础图像扩散模型进行采样,同时保持高图像质量。我们使用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号,并结合对抗性损失,以确保即使在一个或两个采样步骤的低步长状态下也能获得高图像保真度。然而该模型在一个步骤中已经明显优于现有的几步方法(GAN,潜在一致性模型),并且仅用四个步骤即可达到最先进的扩散模型(SDXL)的性能。ADD是第一种使用基础模型解锁单步实时图像合成的方法。
视频扩散模型——5.FateZero
基于扩散的生成模型在基于文本的图像生成方面取得了显著的成功。然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑仍然具有挑战性,尤其是在视频中。在本文中,提出了 FateZero,这是一种基于零样本文本的编辑方法,适用于真实世界的视频,无需按提示训练或特定用途的mask。为了一致地编辑视频,作者提出了几种基于预训练模型的技术。首先,与简单的DDIM inversion技术相比,作者的方法在inversion过程中捕获中间注意力图,有效地保留了结构和运动信息。这些注意力图在编辑过程中直接融合,而不是在去噪过程中生成。为了进一步减少源视频的语义泄漏,将自注意力与源提示中的交叉注意力特征获得的混合掩码融合在一起。此外,还通过引入时空注意力来确保框架的一致性,对UNet的去噪机制进行了自我关注机制的改革。然而,简明扼要的是,本文的方法是第一个从经过训练的文本到图像模型中展示零镜头文本驱动视频风格和局部属性编辑能力的方法。改方法还拥有基于文本到视频模型的更好的零镜头形状感知编辑能力]。大量的实验证明了本文的方法比以前的作品具有更好的时间一致性和编辑能力。
Medical-Diffusion-model——11.Endora
生成模型有望彻底改变医学教育、机器人辅助手术和机器学习的数据增强。尽管在生成 2D 医学图像方面取得了进展,但临床视频生成的复杂领域在很大程度上仍未开发。本文介绍了 Endora,这是一种生成模拟临床内窥镜场景的医疗视频的创新方法。本文提出了一种新颖的生成模型设计,该模型将精心制作的时空视频转换器与先进的 2D 视觉基础模型先验集成在一起,在视频生成过程中明确地建模时空动态。我们还率先推出了第一个带有视频生成模型的内窥镜模拟公共基准,并为此采用了现有的最先进的方法。Endora 在生成内窥镜视频方面表现出卓越的视觉质量,在广泛的测试中超越了最先进的方法。此外,我们还探讨了这款内窥镜模拟器如何支持下游视频分析任务,甚至生成具有多视图一致性的 3D 医疗场景。简而言之,Endora 标志着生成式 AI 在临床内窥镜研究部署方面的重大突破,为医疗内容生成的进一步发展奠定了坚实的基础。
视频扩散模型——14.DynamiCrafter
对静止图像进行动画处理可提供引人入胜的视觉体验。传统的图像动画技术主要侧重于对具有随机动态(例如云和流体)或特定领域运动(例如人发或身体运动)的自然场景进行动画处理,因此限制了它们对更一般的视觉内容的适用性。为了克服这一限制,本文探索了开放域图像的动态内容合成,将它们转换为动画视频。其关键思想是通过将图像纳入生成过程作为指导,利用文本到视频扩散模型的运动先验。给定一个图像,首先使用query transformer将其投影到文本对齐的丰富上下文表示空间中,这有助于视频模型以兼容的方式消化图像内容。然而,一些视觉细节仍然难以保留在生成的视频中。为了补充更精确的图像信息,通过将整个图像与初始噪声连接起来,进一步将整个图像馈送到扩散模型。实验结果表明,本文提出的方法能够产生视觉上令人信服的、更合乎逻辑和自然的运动,以及与输入图像的更高一致性。比较评估表明,本文的方法明显优于现有竞争对手。
视频扩散模型——13.VideoCrafter2
文本到视频生成旨在根据给定的提示生成视频。最近,一些商业视频模型已经能够生成具有最小噪点、出色细节和高美学分数的合理视频。然而,这些模型依赖于大规模、过滤良好、高质量的视频,而这些视频是社区无法访问的。许多现有的研究工作使用低质量的WebVid-10M数据集训练模型,很难生成高质量的视频,因为模型经过优化以适合WebVid-10M。在这项工作中,本文探索了从Stable Diffusion扩展的视频模型的训练方案,并研究了利用低质量视频和合成高质量图像获得高质量视频模型的可行性。首先分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。可以观察到的是,与仅训练时间模块相比,所有模块的完全训练会导致空间和时间模块之间的耦合更强。基于这种更强的耦合,作者通过用高质量图像微调空间模块,将分布转移到更高质量的水平,而不会出现运动退化,从而产生通用的高质量视频模型。进行评估以证明所提出的方法的优越性,特别是在图像质量、运动和概念构图方面。
视频扩散模型——12.VideoCrafter1
视频生成越来越受到学术界和工业界的兴趣。尽管商业工具可以生成合理的视频,但可供研究人员和工程师使用的开源模型数量有限。在这项工作中,将介绍了两种用于高质量视频生成的扩散模型,即文本到视频(T2V)和图像到视频(I2V)模型。T2V 模型根据给定的文本输入合成视频,而 I2V 模型则包含额外的图像输入。本文提出的 T2V 模型可以生成分辨率为 1024 × 576 的逼真和电影质量的视频,在质量方面优于其他开源 T2V 模型。I2V 模型旨在制作严格遵守所提供参考图像内容的视频,保留其内容、结构和风格。该模型是第一个开源 I2V 基础模型,能够将给定图像转换为视频剪辑,同时保持内容保留约束。
avatar
PhoenixPeng
witness me