中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

　　3月1日消息:扩散模型中，UNet的long skip connection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中，如Imagen和Score-based generative model中，已经观察到设置scaling系数可以有效加速模型的训练过程。

　　但是，过去这种操作缺乏具体的分析，只是经验性地认为能够起到加速作用。现有研究发现，合理设置scaling系数可以缓解特征不稳定，进而提高模型对输入扰动的鲁棒性。

　　这项研究也揭示了scaling系数对梯度量级的控制以及对输入扰动的稳定性的影响。通过对扩散模型任务中特征和参数的可视化，研究人员发现了模型训练过程中的不稳定现象，这一发现促使他们在long skip connection上进行Scaling来进行统一地缓解。

　　通过引入可学习的模块，如Learnable Scaling (LS) Method，可以自适应地调整scaling系数，进一步稳定模型的训练。

　　此外，研究人员提出了一种无需额外参数的Constant Scaling (CS) Method，简化了模型实现过程。虽然LS在稳定训练上表现更好，但CS仍然是一种值得尝试的策略。这些方法的实现非常简洁，只需几行代码即可实现。最近的一些后续工作也进一步验证了skip connection上scaling的重要性，为这一领域的发展提供了新的思路和方向。

中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

延展资讯