科技魔方

次元壁的重塑:当AI主播走进央视演播厅

人工智能

2019年03月18日

69014750500.jpg

  我们对AI与新闻产业的想象,大多还停留于那些在瞬间生成新闻的“写作机器人记者”,至于那些在新闻节目里出现的主播,谁也想象不到他们会与AI产生任何联系。

  但变化总比想象中更快来临。

  在今年“3·15”晚会开播前,搜狗与央视财经频道联合推出的AI主播“姚小松”正式亮相,在央视对“3·15”晚会进行预热。

  当我们描述两个很难交融的领域发生碰撞时,我们常常会将其形容为“突破次元壁”。而像搜狗AI主播这样,牵手国内最权威电视媒体,融合了AI技术与新闻播报产业,几乎可以被称作是对次元壁的“重塑”。

  当原本属于人类的传播空间被击破又重塑,我们可以去探讨这一项技术的落地,会对我们的世界造成怎样的改变。

  聚集三次方:从复制粘贴到生命构建

  其实我们对这股突破次元壁的“神秘力量”并不陌生,在去年,就已经有很多建立在对抗生成网络上的人脸生成技术。

  例如华盛顿大学曾经推出的AI奥巴马,就是通过神经网络模型对大量奥巴马的照片、视频进行训练,再如同“复制粘贴”一样替换掉原有视频中的声音和人脸,生成惟妙惟肖的“假奥巴马演讲”。

  但搜狗AI主播则与以往的人脸生成技术不同,投入应用的AI主播,显然不能是前台让“替身”录好视频,再进行后期处理,而是直接用技术生成栩栩如生的AI主播。

  从论文中的实验数据到直面用户的央视主播,其中的差别无异于“复制粘贴”和“生命构建”,在这一过程中,搜狗AI形成了三种聚集。

  1、 多模态模型的打造

  和实验室中用几百个小时打磨一张人脸的替换技术不同,AI主播想要投入使用,需要的是同一套模型通用无数人的能力,并且包含表情、嘴型、声音和手势多个维度。搜狗AI凭借着多模态识别能力,将语音、面部动作识别、唇语识别等技术进行了融合。在大量数据训练的基础上,再结合图像生成和语音合成技术,才完成了动作逼真、声动同步的AI主播能力塑造。

  2、 快速投入使用的精准能力

  而AI主播融入产业,尤其是和央视这种权威电视媒体的合作,给技术带来了更严格的要求。一方面要求AI主播可以快速投入使用,编辑输入文字后无需后续编辑就能及时播报,同时新闻播报的容错率几乎等于零,这是对搜狗技术能力极为严苛的考验。搜狗AI主播除了能够生成声音和形象以外,还通过语义理解能力为不同内容搭配上不同的语调和表情,从细微处满足应用要求。

  3、 深层交互的细节赛点

  AI主播投入使用后,人们过了一开始的新鲜期,阈值只会不断提升,为AI主播的真实度提出更多要求。这时需要搜狗AI继续在微表情、微动作上不断提升,拥有技术的持续发展能力。搜狗语音交互技术中心高级总监陈伟曾经表示过,搜狗AI主播的技术能力还在不断完善,今年内将在交互能力、2D+3D图像融合等能力上进一步提升。

  权威电视媒体的技术迭新:即将剧变的新闻产业

  除去技术以外,搜狗AI主播和央视的合作对于新闻界来说也意义非凡。

  自从社交媒体带动了自媒体的崛起后,新闻的界限就开始逐渐模糊,发声权力不断下放。到了如今AI驱动的资讯推荐平台兴起,更是让传媒场中喧闹纷扰。

  我们能看到,从去年以来有大量资讯推荐平台遭到了点名批评甚至关停,这意味着丰富的信息源已经让传播趋于无序混乱,这种状况亟待改变。

  形成这种情况的一个重要原因就是,组织化的权威电视媒体,出产能力上就落了弱势。一家权威电视媒体发布一条消息,可能立刻就会有一百位kol做出不同角度的解读。不仅仅主流媒体自身设施议程的能力变弱,很难让信息精准传播到受众耳中,在大众广泛参与时,沉默螺旋效应也会变本加厉,“十万+”爆款、热门评论、热搜……这一切以流量基础决定曝光度的机制很容易仅仅放大舆论场中的一种声响,让人们失去理性思考的能力。

  这次央视和搜狗AI主播的合作,意味着权威电视媒体正在利用技术提升内容出产效率,帮助权威信息更快速地传播。

  传统的电视媒体要经过文本采编、录制、后期然后再进行播放,不仅容易让信息滞后,出产效率也相对较低。但AI主播的出现,可以直接取消掉中间流程,直接让文本信息变为视频内容,甚至多线协作,在瞬间推出无数条视频新闻。让权威消息更广泛、高效地触达用户,对舆论场的走向形成正向引导。

  如此看来,央视和搜狗AI主播的合作可以说是以技术效率追赶发声权的典型案例了。今年中共中央政治局第十二次集体学习时重点提出的媒体融合,也提出了利用技术对传媒形式进行升级。这意味着会有更多传统媒体和央视与搜狗AI主播的合作一样,利用技术进行自我迭新。此刻,我们正在迎来传媒产业技术升级的奇点。

  重新排列组合:AI合成的X未来

  次元壁的重塑,引起的从来都不是一处力场的波动。搜狗AI主播和央视的合作只是一个开始,展示了对真人模拟的案例。这一案例所打开的想象空间,才是更值得期待的。

  AI主播并不仅仅只是停留在“主播”这一个工作身份上。在一切以语言为主要劳作方式的工作身份中,主播可以说是一个代表。这一技术的内核,是利用AI综合交互打造具备广泛适应性、能够复制入各行各业的虚拟AI形象。通过对声音、神态、语调甚至动作的模仿,将作为内容传播者、发声者的人类从中解放出来,极大程度地提升效率。

  例如在未来教育领域,教师的形象也可以通过AI被复制。现如今的教育模式是一位老师为几十位学生讲解课程,而通过AI带来的分身能力,未来可以实现让每位学生在前端获得属于自己的AI老师,加之后端对教育内容的快速加工生成,就能实现真正千人千面的个性化教育。

  而在娱乐应用上,虚拟AI形象能发挥出的作用更大。不仅能够应用在影视特效上,也能帮助娱乐产业快速出产内容。或许未来的偶像产业,将完全建立在技术体系上,通过对真人形象的采集,让每个粉丝可以拥有自己的偶像形象,输入音频文件就能生成MV。

  这样的能力还可以在无数领域创造惊喜,也许未来我们可以拥有真人形象的家庭AI助手,游戏中的角色会以真人形象展示,出现在银行窗口的会是和真人一样的“AI职员”。

  AI越来越多地出现在我们的生活中,而搜狗拥有的能量,是将这些虚拟的“灵魂”融入到一具具肉体之中。或许在未来,为AI加以真人形象将成为一种刚需。而这时搜狗的提前布局,就会极大地发挥出作用,为这个次元不断重塑的世界,再带来一个无限可能性的X。

  在如今这个技术不断带来新惊喜的时代,一次次元壁的重塑就如同一次世界规则的重新排列,无数变化蕴生其中。有变化,便有新的期待。

+1

来源:品途商业评论 作者:脑极体

推荐文章