科技魔方

Meta AI推出FoleyGen,用视频生成音频

大模型

2023年09月21日

  据 HuggingFace 报道,Meta AI 近日发表论文,推出了一个名为 FoleyGen 的音频生成系统。

  FoleyGen 利用现成的神经音频编解码器在波形和离散标记之间进行双向转换。音频标记的生成由单个变换器模型完成,该模型以从视觉编码器中提取的视觉特征为条件。

  VGGSound 数据集上的实验结果表明, FoleyGen 在所有客观指标和人类评估方面都优于以前的系统。

+1

来源:DoNews

延展资讯