科技魔方

最新AI配音技术刷屏!声音克隆+口型同步,这下真的是“全世界都在说中国话”了

人工智能

2023年10月24日

  本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:月山橘。

  没开玩笑,现在的AI技术,能让全世界都说中国话。

  继“AI孙燕姿”后,最近,有一条视频再次刷新了大众对于AI配音技术的认知。

  10月19日,B站UP主“johnhuu”发布了一条题为“这才是没有译制片腔调的翻译”的视频。

  视频一开头,霉霉正在用地道的普通话侃侃而谈。正当我惊讶于“霉霉什么时候中文这么标准了”的时候,才发现这是AI配音的效果。

  对比英文原版视频,AI不仅准确翻译了她的话,而且还原了她的声音、语气和腔调,甚至连嘴型都换了……

  除了霉霉之外,视频还展示了特朗普、憨豆先生、斯佳丽、艾玛等人“说中文”,蔡明用英文说小品的效果,弹幕直呼“有内味了”。

  相比于“噢!我的老伙计,你最近过得还好吗?”这样的传统译制片腔,这些AI配音可以说是自然得毫无违和感。

  于是有网友当即表示:“配音演员岂不是又要失业一大片?”

  也有网友表达了对于虚假信息和AI诈骗更加泛滥和难以辨别的担忧:

  不过,仔细想想,这种技术的应用前景还是挺令人兴奋的。

  如果能利用AI轻松实现音视频内容的本地化,对于内容创作者来说,无疑是拓宽了受众范围,受众自身也能获得更原汁原味、更具沉浸感和情感共鸣的视听体验。对于出海创业者来说,则是妥妥的出海好帮手。

  那么,AI本地化配音背后的技术原理是什么?目前有哪些工具可以实现上述视频的效果?这项技术的应用前景如何?配音演员会因此面临失业危机吗?

  AI+配音现在流行这么玩?

  正如UP主“johnhuu”所说,要达到视频中的效果,通常需要同时满足3个条件:地道的口语翻译、克隆说话者的声音、把嘴型换了。

  随着语音识别技术(ASR)的进步,以及ChatGPT等AI工具越来越多地应用于语言翻译,AI往往可以生成比机翻更准确、地道的翻译文本。

  而声音克隆技术是AI歌手所依赖的核心。当下较为出名的声音克隆工具如Eleven Labs、微软的VALL-E等,均可以通过上传少量音频样本,生成与原音色极为接近的声音。

  再通过TTS(Text To Speech)和口型同步技术,即可生成几乎完全覆盖原片、让人难辨真假的AI配音。

  而且,目前的TTS技术已从通用TTS、个性化TTS向情感TTS发展。

  相较前两者,后者依赖“情感意图识别”“情感特征挖掘”“自然语言处理”等AI技术,可以使AI配音更生动、富于情绪变化,以消除冰冷、不自然的机械感。

  话不多说,接下来“头号AI玩家”就给大家盘点几个AI视频翻译+配音的工具。

  1. AI Dubbing

  这是ElevenLabs近期发布的一款产品,结合了ElevenLabs的多语言语音合成、声音克隆、文本和音频处理技术,可以把任意一段音频或者视频,快速翻译为包括中文、葡萄牙语、日语等在内的29种语言,同时保留原语音者的音色特征和情感。

  访问AI Dubbing官网,选择Create a New Dub创建一个新项目,为项目添加一个名称,Source Language可以手动选择或者让系统自行检测,Target Language选择想要输出的目标语言即可。

  除了上传视频外,还可以粘贴Youtube、TikTok、X(Twitter)、Vimeo,以及任意视频的链接。设置完成后,点击最下方的Create按钮,开始音频克隆,完成后可以预览看看效果,然后再下载。

  此外,在高级选项中还可以选择原视频中的人物数量、视频的质量,以及其他设置。

  需要注意的是,在未登录和注册的情况下,AI Dubbing仅支持翻译一个最长为1分钟的视频,免费体验额度用完即需要付费使用。

  在AI Dubbing的发布会上,ElevenLabs首席执行官兼联合创始人Mati Staniszewski分享了他在童年时期经历的后期配音内容的负面体验:“我在波兰长大,我们看的英语电影都是由一个旁白配音的。这意味着每个演员都有同样的声音,这让观影体验大打折扣。人工智能配音的发布是我们在消除这些内容语言障碍方面迈出的最大一步,将帮助观众享受他们想要的任何内容,无论他们说什么语言。”

  2. HeyGen

  HeyGen是一个AI视频和数字人生成网站,9月7日上线了Video Translate(视频翻译)功能后,在X上迅速走红。

  有国外网友使用HeyGen的即时配音+口型同步功能,生成了Elon Mask用日语、西班牙语、德语等8种语言的讲话片段。

  此外,还有梅西和扎克伯格等人用多种外语讲话的逼真片段在社交媒体疯传。

  目前,HeyGen的视频翻译功能支持14种语言,依托的是ElevenLabs的声音处理技术。不过,用户必须上传时长居于30秒至5分钟之间的视频,否则无法翻译和生成。

  HeyGen的创作者包月套餐最低为每月29美元,可以制作多个视频,每个视频最长5分钟。

  3. LipDub

  LipDub由初创公司Captions开发,这家公司成立于2021年,已获得红杉资本、Instagram联合创始人Kevin Systrom和Mike Krieger,以及Facebook前产品设计副总裁Julie Zhuo的投资。

  目前LipDub支持28种语言,在语言翻译方面使用了OpenAI的GPT-4模型,并且可以识别讲话人的唇部动作。

  LipDub的创始人Misra和Churchill表示,他们早就想在配音翻译中加入口型匹配功能,但没想到会这么快实现。

  Misra说:“我们最初认为这项技术需要10年时间才能够实现,但现在的技术发展实在太快了,几乎每个月甚至每周都有新东西出现。”

  4. Verbalate

  Verbalate也能将视频同步配音成目标语言,不同的是,Verbalate可以为长达30分钟的视频配音。

  目前Verbalate最基础的订阅计划为每月9美元,该套餐允许用户翻译一个10分钟的视频,每分钟的额外费用为1美元。

  除了上述专门的AI视频翻译+配音工具外,上个月,海外流媒体音乐服务平台Spotify也开始涉足这一领域,推出Voice Translation(语音翻译)功能。

  该功能由OpenAI的语音识别模型Whisper提供技术支持,能够在翻译音频时模仿原播客主播的声音,并使用相同的语气和节奏,提供西班牙语、法语和德语的无缝听力体验。

  目前,演员Dax Shepard和Kristen Bell、麻省理工学院研究员Lex Fridman和Steven Bartlett等人均有了西班牙语播客,法语和德语翻译也将很快推出。

  AI配音会让配音演员失业吗?

  先说结论:不会。

  就现阶段AI音视频翻译和配音技术的发展程度而言,基本可以应付大部分对艺术性和表现性要求较低的内容,如宣传视频、讲解培训视频、在线学习视频、播客、部分社交媒体内容等。

  但如果从商业化能力出发,游戏和影视通常被视为AI配音技术的最佳落地场景。

  游戏中的角色语音通常需要聘请不同国家的声优,用不同的语言表达同样的内容,而AI可以将原配快捷地转换为其他语种,并且保留原配的音色和情感。

  以米哈游旗下的游戏《原神》为例,目前,全配音基本已经成为游戏主线剧情和部分重要支线剧情的标配。

  “剧情怎么没语音”“静音过剧情实在很难代入”等已成为玩家社区中常见的不满声音,豪华的声优阵容也是玩家们津津乐道的话题。

  但同时,聘请声优的价格也相当昂贵,在出现台词微调、内容删改的情况下,还需要重新召集配音演员反复进棚重录。

  因此,在游戏配音领域,AI有着极高的降本潜力,并且可以大大提高工作流的可控性。

  知名游戏引擎厂商Unity和Epic都允许将AI配音插件嵌入到引擎程序中,以便于游戏开发者调用。国内外的许多游戏、影视公司也在积极加码AI配音技术。

  去年9月,因配音演员无法继续参与语音收录工作,为了避免较长时间静音实装,影响玩家游戏体验,米哈游旗下《未定事件簿》和网易旗下《时空中的绘旅人》都宣布采用AI配音暂时替代真人配音。

  《未定事件簿》称,将基于自研的“逆熵AI”生成角色语音。《时空中的绘旅人》则与网易互娱AI Lab合作,通过提取角色原有配音声纹特征,录制新语音。

  消息一出,众说纷纭,很多玩家认为这比换新CV更容易让人接受,但质疑者担心,AI配音没有情感和灵魂。

  然而,当角色的AI语音实装后,玩家们无不惊艳了一把!AI几乎完美复刻了原配音演员的音色,就连气音、颤音、停顿、轻重等细节也有所呈现。

  后期换了新CV后,由于业务能力受到质疑,甚至有玩家呼吁“不行就换回AI”。

  今年9月,日本配音演员梶裕贵在出道20周年之际,宣布计划利用自己的声音开发AI语音软件,并在Youtube发布了一条与他本人无异的AI语音。

  更有甚者直接创办了一家AI配音公司,造福大众。今年10月,配音演员Ciccy Jones创办了一家AI初创公司Morpheme,据她介绍,未来复杂的配音工作只需要外包给自己的“数字孪生”。

  前不久,开放世界3A大作《赛博朋克2077》的资料片《往日之影》发布,CDPR用AI在片中重现了已故配音演员雷泽克的声音。

  雷泽克是游戏中人气角色维克多的配音演员,但已因病去世。为了保持资料片与游戏本体的声音一致,防止游戏玩家产生割裂感,CDPR决定采用AI技术来呈现雷泽克的声音。

  在征得雷泽克家属的许可后,CDPR请来一位配音演员重新录制了维克多的全部台词,并通过语音合成软件Respeecher对配音进行微调。

  不过,虽然AI配音应用成本较低,市场也颇为看好AI配音技术在游戏、影视,以及个性化人机交互等领域的应用前景,但高质量的本地化配音高度依赖语境、情感和口语化语言,需要处理细微的情境和文化差异。

  总的来说,AI配音目前还无法非常准确地处理这些复杂因素。如果要保证配音质量,人工参与不可或缺。

  而且,由于游戏、影视领域的配音演员生态已经非常成熟,短期来看,AI配音技术依然只是对配音演员生态的补充。

  此外,围绕AI配音还有诸多版权和伦理道德争议有待厘清,比如:谁拥有AI配音的所有权?如果AI配音与声优的声音极为相仿,却说了声优本人从未说过的,且有损其声誉的话,应该如何进行侵权判定?即使声优授权AI使用自己的声音,谁持有他们之前配音作品的版权?

  这些都是值得被进一步讨论的问题。

+1

来源:微信公众号 头号AI玩家

延展资讯