何恺明与MIT合作推出自条件图像生成框架RCG_科技魔方-中文AI大模型门户网站

　　近期，何恺明与MIT合作推出的自条件图像生成框架RCG在学术圈引起关注。这一框架成功填补了长期存在的有条件和无条件生成任务性能差距，取得了ImageNet-1K数据集上无条件图像生成的新SOTA成绩。

　　RCG的设计灵感来源于自监督学习，通过表示扩散模型RDM生成低维自监督图像表示。这一表示条件图像生成架构包括SSL图像编码器、RDM和MAGE像素生成器，结构简单而高效。

　　为了实现无条件图像生成，RCG的关键在于将图像分布转换为紧凑的表示分布，通过SSL图像编码器实现。RDM模型用于对表示分布进行建模和采样，具有多样性强、计算开销小的优点。最后，MAGE像素生成器根据表示来处理图像像，通过向token化的图像中添加随机掩码并要求网络以条件重建丢失的token，实现图像生成。

　　RCG在ImageNet256×256上的表现令人瞩目，取得了3.56的FID和186.9的IS得分，相较于之前最先进的无条件生成方法有着显著提升。不仅如此，RCG在无分类器引导的情况下，成绩还能进一步提高到3.31(FID)和253.4(IS)。这一成果展示了自条件图像生成模型的潜力，为图像生成领域带来了新的可能性。

　　总的来说，何恺明与MIT的合作研究为无条件图像生成领域带来了新的突破，RCG框架的成功应用表明自条件图像生成模型具有巨大的潜力，可能预示着这一领域新时代的到来。

何恺明与MIT合作推出自条件图像生成框架RCG

延展资讯