阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频

　　DreaMoving由阿里巴巴集团的一组研究人员倾力打造，一种基于扩散模型的可控视频生成框架，。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

　　DreaMoving以其出色的扩散模型为基础，能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

　　DreaMoving 可以生成高质量和高保真度的视频，给定指导序列和简单的内容描述，例如文本和参考图像作为输入。具体来说，DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

　　比如你“投喂”一张人像，以及一段prompt就能生成对应的视频，而且改变prompt，人物背景和身上的衣服也会跟着变化。

　　为实现这一目标，该技术引入了Video ControlNet和Content Guider两个关键组件。

　　Video ControlNet:这是一个图像ControlNet，通过在每个U-Net块后注入运动块，处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。

　　Content Guider:该组件负责将输入文本提示和外观表达，如人脸(衣物是可选的)，转换为内容嵌入，实现跨注意力的传递。

　　值得一提的是，目前DreaMoving项目并没有开源代码。