PhoenixPeng's blog.

PhoenixPeng's blog.

it's better to burn out than to fade away

扩散模型——10.ControlNet
本文提出了提出了 ControlNet,这是一种神经网络架构,可将空间调节控制添加到大型预训练文本到图像扩散模型中。 ControlNet 锁定可用于生产的大型扩散模型,并重用其经过数十亿图像预训练的深度且强大的编码层作为强大的骨干来学习一组不同的条件控制。神经架构与“零卷积”(零初始化卷积层)连接,参数从零逐渐增长,并确保没有有害噪声会影响微调。我们使用稳定扩散、使用单个或多个条件、有或没有提示来测试各种条件控制,例如边缘、深度、分割、人体姿势等。我们证明了 ControlNet 的训练对于小型(<50k)和大型(>1m)数据集都是稳健的。大量结果表明 ControlNet 可以促进更广泛的应用来控制图像扩散模型。
扩散模型——9.Latent Consistency Models
潜在扩散模型(LDM)在合成高分辨率图像方面取得了显着的成果。然而,迭代采样过程计算量大,导致生成速度慢。受一致性模型的启发,本文作者提出了潜在一致性模型(LCM),可以在任何预训练的 LDM 上以最少的步骤进行快速推理,包括稳定扩散。将引导反向扩散过程视为求解增强概率流 ODE (PF-ODE),LCM 旨在直接预测潜在空间中此类 ODE 的解,从而减少大量迭代的需要并允许快速、高保真采样。高质量的 768×768 2∼4 步 LCM 从预训练的无分类器引导扩散模型中高效提取,仅需 32 个 A100 GPU 小时即可进行训练。此外,作者还引入了潜在一致性微调(LCF),这是一种专为在定制图像数据集上微调 LCM 而定制的新颖方法。对 LAION-5B-Aesthetics 数据集的评估表明,LCM通过几个步骤的推理即可实现最先进的文本到图像生成性能。
E3D-Lstm
本文参考《Eidetic 3D LSTM:A Model For Video Prediction And Beyond》介绍当中提出了的 Eidetic 3D LSTM (E3D-LSTM)模型,它将3D卷积集成到RNN中。封装的3D-Conv使RNN的局部感知器具有运动感知能力,并使存储单元能够存储更好的短期特征。对于长期关系,通过门控的自注意力模块使当前的记忆状态与其历史记录进行交互。即使在长时间的干扰之后,它也能够跨多个时间戳有效地回忆起存储的记忆。作者在广泛使用的未来视频预测数据集上评估 E3D-LSTM 网络并实现最先进的性能。然后实验表明,E3D-LSTM 网络在早期活动识别方面也表现良好,可以在仅观察有限的视频帧后推断正在发生的事情或将要发生的事情。该任务与对动作意图和趋势进行建模的视频预测非常一致。
常见的图像评价指标
在看论文的实验当中总是会看到一些比较常见的图像评价指标,如:PSNR,SSIM,LPIPS。但总是看一遍忘一遍具体含义,加上之后的实验当中也可能需要这些指标去做评估,所以本文主要介绍这些常见的图像评价指标,并附上实验代码。
扩散模型——8.Consistency Models
扩散模型极大地推进了图像、音频和视频生成领域的发展,但它们依赖于迭代采样过程,导致生成缓慢。为了克服这个限制,我们提出了一致性模型,这是一个新的模型系列,通过直接将噪声映射到数据来生成高质量的样本。它们通过设计支持快速一步生成,同时仍然允许多步采样以牺牲计算量来换取样本质量。它们还支持零样本数据编辑,例如图像修复、着色和超分辨率,而无需对这些任务进行明确的培训。一致性模型可以通过提取预先训练的扩散模型来训练,也可以作为独立的生成模型来训练。通过大量实验,我们证明它们在一步采样和少步采样方面优于扩散模型的现有蒸馏技术。
PredNet
本篇文章主要是对《Deep Predictive Coding Networks For Video Prediction And Unsupervised Learning》本文探索了视频序列中未来帧的预测作为学习视觉世界结构的无监督学习规则。提出了一种名为预测神经网络(“PredNet”)的架构,其灵感来自神经科学文献中的“预测编码”概念。这些网络学习预测视频序列中的未来帧,网络中的每一层都进行本地预测,并且仅将这些预测的偏差转发到后续网络层。我们表明,这些网络能够稳健地学习预测合成(渲染)对象的运动,并且在此过程中,网络学习内部表示,这些内部表示对于解码潜在对象参数(例如姿势)非常有用,这些参数支持以更少的时间进行对象识别。实验结果表明预测代表了无监督学习的强大框架,允许对对象和场景结构进行隐式学习。
avatar
PhoenixPeng
witness me