跳转到内容

也谈“AI主播”

本文首发于航通社,原创文章未经授权禁止转载。航通社 微信:lifeissohappy 微博:@lishuhang

11月8日,新华社和搜狗在乌镇峰会现场发布的“AI主播”可以说是确确实实地在全世界范围内引起了反响。

有些国内产品会找一些“不入流”的外文网站出稿,假装获得了“全球媒体”关注,但这次的“AI主播”不在此列。CNN、BBC、The Verge、CNET、南华早报等都在主要的版面给了这两位“主播”一席之地。

这倒并不是因为新华社版“AI主播”在技术上有多先进,而是说,更多是因为一个国家级主流媒体运用虚拟主播技术,这项举动本身具有强烈的象征性意义。

就像之前曾经被沙特授予“公民权”的那位女性机器人“索菲亚”一样,“她”也不一定是当今世界上技术最先进的机器人,只不过是说这件事情可以成为时代进步的一个强烈的隐喻。

没准,未来再回顾21世纪第二个十年的时候,这个镜头可以作为无数关键时刻其中的惊鸿一瞥。

低级失误

两位“AI主播”的外观和声音是分别取材自新华网络电视(CNC)中文台和英文台的两个主持人,其中被广泛传播到全世界的演示视频,是以新华英文台的主持人形象示人的英语“AI主播”所播报的一则关于进口博览会的新闻。

在这则两三分钟的新闻当中,还是不可避免地出现了比较低级的失误:将阿里巴巴创始人马云的名字“Jack Ma”误读成了“Jack Massachusetts”,这是因为语音合成系统读到这部分文字稿的时候,判断“MA”两个字母是美国马萨诸塞州的缩写。

在很多情况下,需要读到美国某个小地方地名的时候,就需要把“MA”理解为“马萨诸塞州”,但预防此类问题,既可以通过将“Jack Ma”一词特殊化处理,也可以通过将美国地方地名特殊化处理的方法来化解。在对外演示的视频中出现这样的错误,恰恰证明了新华社和搜狗并未针对主播们的“处女秀”而对演示“弄虚作假”,完全是以真面目示人。

开始跨越“恐怖谷”

世界各国媒体在观察这对“AI主播”的时候,都说“他们”暂时还没有实现新华社本身所宣传的那样,能够百分之百的替代真人的效果,同时还是被卡在了所谓“恐怖谷”当中。也就是说,当类人形象的拟真度达到90%左右,尚未能够100%以假乱真的情况之下,会产生一种不自然的机械感,甚至会令人毛骨悚然。

早几年,人们都是在达到“恐怖谷”级别后,稍微往后退缩一点,即进一步的增强机器与人之间的差异,用一个本来就知道是机器人,或是卡通形象的脸,就可以规避让人害怕的麻烦,也创造出初音未来,或是“会说话的汤姆猫”这样的角色。

(图 / DailyMotion)

因此,早在大概2013-14年,使用机械声音味道很浓重的合成语音,加上明显不像是真人的卡通形象,替代人类去做一些资讯播报的做法,已经在普通的电脑和手机用户中普及泛滥。

在YouTube上,世界各国的上传者为了争取(骗取)点击和贴片广告费,会在一些突发新闻出来的时候,抢着发一些“混淆视听”的视频内容。最开始,网上可能只有图文消息出来,暂时还缺乏电视台或广播电台的真人播报录像,或者这些录像会因为版权问题被清理掉。那么,这一段时间之内如果有人去YouTube试图寻找新闻报道,就会遇到一个“空窗期”。

做假视频内容的人会将图文报道贴入“谷歌翻译”等文本转语音(TTS)软件,生成配音,再把随便什么地方找的配图一搭配,辅以花花绿绿的字体,最重要的是配上“突发新闻、最新报道、现场直播”这样的有利于搜索引擎抓取(SEO)的标题,本来想看电视台报道的观众就会遇到这些招摇撞骗的垃圾信息,从而上当受骗。

某个专门上传这种“骗点击”(Clickbait)视频的号长这样:

航通社在《都8102年了,机器人还是“静若瘫痪,动如癫痫”》一文中曾提到过:

“研发更像人的交互界面始终存在风险,所以更多的服务型机器人从‘肉体’到‘灵魂’——即内置的AI操作系统——都在恐怖谷前停下了脚步。

大家宁可表现得像‘面瘫’版喜羊羊,也不愿意冒产品滞销的风险,向着真正像人一样的终极目标迈出那一步。”

( https://mp.weixin.qq.com/s/tiiUYAxJ6qJNp6OpgfVmCQ )

新华社和搜狗共同努力做的“机器人播报员”,却并没有选择一个卡通卖萌形象充数,而是鼓起勇气,用真人建模,再一次对“恐怖谷”发起了勇敢的冲击。

日趋成熟的技术

这并非巧合——2018年,多家企业的同时起跑和开源解决方案的涌现,标志着用技术模拟真人的简单化、普及化进程已经拉开序幕。

在图像技术方面,主机游戏的机能和图形引擎一同进化,可以在光照、皮肤、毛发、布料等方面达到媲美真人的效果,而动作捕捉和实时渲染技术可以加速数字影像生成的进度。

而最为著名的开源方案Deepfakes更是以“换脸术”为人所知,Deepfakes在Reddit和PornHub等地引发了一场“狂欢”,直到被平台禁止之前,人们疯狂地把女明星的脸“P”到色情影片女主角的身上。

此后,Deepfakes进化为在任何PC机都能运行的FaceApp,借助它作为后期处理,有人做出了奥巴马骂特朗普是“笨蛋”的一段视频,这段录像现实中并未发生过,完全是“AI对口型”的产物。

在声音技术方面,进步更快。谷歌的“谷歌助手”、微软的“小冰”都可以实时生成流畅的语音,跟真人“打电话”聊天,或者充当AI客服。高德地图的各种明星语音包已经投入商用三四年了。

而今年1月央视纪录频道播放的纪录片《创新中国》,邀请科大讯飞对2013年去世的著名播音员李易声音建模,完全使用合成的“李易原声”为纪录片做了配音。讯飞在圆满完成任务的同时,还借此拥有了李易老师的声音库。

可以发现,图像和声音拟真技术的齐头并进,都是沿着这样一条确定的路线行进——先做出来,再一边效果调优,一边降低成本,提高效率。

本次搜狗在“AI主播”案例中演示的实时合成技术,以及前几天猎豹移动旗下“猎户星空”展示的超快速“真人语音包”建模技术,都同时说明了,在效果上暂时无法取得决定性突破的同时,AI拟真技术在成本和效率方面进化神速,基本可以做到“实时生成”和“任何人都可以生成”。

虽然现在的主播仍然呈现动作僵硬,语音语调不协调等问题,但任何一个报道这件事情的国内外媒体其实都心知肚明,这是AI向真人进攻路上的一个里程碑或标志性事件,但绝对不是一场努力的终点,而在未来还将会以更快的速度进化。现在这些小问题将会逐渐被攻克,直到屏幕上主播的表现和真人没有什么区别。

“AI主播”上岗的意义

全球媒体报道新华社率先上岗“AI主播”的时候,也有各种各样的担忧,但首先都给予了肯定。最重要的一点是,官方媒体率先垂范采用这类仿真技术,有助于自上而下地对抗“假新闻”。

即使是上面所说的粗制滥造的假新闻视频,对于一些信息闭塞地方的人来说,可能已经是足够“说服”他们的。不同人分辨信息真伪的能力是有区别的,有些人可能会始终分不清什么才是真正的电视台播报,而因此影响他们的政治倾向,投票结果,或造成财物损失等等。

诸如为色情电影“换头”这种对AI拟真的滥用也值得担忧,这当然不是因为它们不符合对“真实”的追求,而是有可能会成为网络暴力的起源,或者是分手后报复性羞辱前任的手段,影响当事人的正常生活。

从这个角度上来说,像新华社这样正规的官方媒体,先行一步采用机器人朗读方式,就可以在突发事件传播中占得先机,抢在“谣言”的前面到达社会公众。

至于国外媒体的担忧,主要集中于这一行为对传统媒体的严肃性、公信力形象的“无形消解”。

牛津大学计算机科学教授伍尔德里奇(Michael Wooldridge)在接受英国广播公司(BBC)采访时提到,在很多时候,新闻播音员都是社会高度信赖的公众形象。“如果你看着一段动画,你将完全失去和主播之间的这样一种联系。”

(https://www.bbc.com/news/technology-46136504)

在中国,《新闻联播》的数位主播被誉为“国脸”,有说他们换发型都需要组织批准。在发达国家,主播不仅仅是照本宣科念稿子的人,他们会作为整个媒体公信力的一部分,一个典型的象征而存在。所以各大媒体的首席主播,往往是最赚钱的媒体人之一。

《南华早报》统计称,在美国的主播薪酬排行榜上,CNN的安德森·库珀(Anderson Cooper)以年薪1亿美元排位第一,而美国广播公司的戴安·索耶(Diane Sawyer)以及福克斯新闻的主播肖恩·汉尼迪(Sean Hannity)以年薪8000万美元并列其后。

(https://www.scmp.com/tech/innovation/article/2172235/xinhua-news-agency-debuts-ai-anchors-partnership-search-engine-sogou)

上面提到的王牌主播,都是从地方台记者开始一路晋升的,而不是像中国这样,拥有一个“播音主持”的专业学科,播音员、主持人和记者、编辑之间是区分的很开的,前者几乎没有经过任何采访方面的训练。

欲戴皇冠,必承其重。对国外主播们来说,他们不仅仅要对自己所宣读的文本内容负责,而且还要在一些独家的,原创性的采访当中,展现自己作为一个记者的才华。主播们如果有内容后来被验证为错误,或者有不适当的言行举止,都会受到严重的惩罚,断送职业生涯。

这从美国全国广播公司(NBC)两位新闻主播的陨落上就可见一斑。2015年,晚间黄金时间新闻节目长期培养的主持人布莱恩·威廉姆斯(Brian Williams)因为在一档伊拉克战争随军采访中夸大其词,虚假描述了自己随军报道的角色,导致公信力丧失,被雪藏半年之后降格来到MSNBC频道的政论节目。

2017年11月美国兴起 #MeToo 运动期间,至少三位NBC女员工举报早间节目《今日秀》主持人马特·劳尔(Matt Lauer)性骚扰,劳尔“闪电”离开主播台,现在处于销声匿迹的状态。

有血有肉的、人格化的主持人对电视媒体的重要性,由此可见一斑。他们是媒体公信力的一个重要的组成部分——至少现在是这样的。

部分国外媒体因此担心,以假乱真的AI主播上岗后,可以“想让他说什么就说什么”,而不用担心有真人主播“闹情绪”,不配合。不过,如果他们在中国呆一段时间,应该就知道他们其实想多了。中国的新闻播音员现在承担的角色,跟只字不差的AI还真差不了多少。

在中国,虚拟主播的存在,倒是的确可以帮助一些预算上不充裕的电视台,让他们把“好钢用在刀刃上”,通过更精简的预算,实现一些原来在全国性大台才有条件实现的项目——例如开设24小时不间断的新闻台。

很长一段时间,全国范围内只有中央电视台拥有一个24小时的新闻频道,加上少数沿海省份能收看到香港的凤凰卫视。国内的几家电视台也曾或多或少有过“新闻立台”的心思,但是很可惜都没有坚持住。

上海是各地电视台中做新闻最成功的其中一家。2016年7月,上海文广推出“看看新闻”客户端和配套的24小时新闻频道KNews24,除央视之外,第二个建立起24小时不间断的新闻频道。但是该频道只能通过机顶盒和网站等OTT形式播放,不能上星及进入有线电视网络。受到资金和人员的限制,该台也只能在上下午新闻之间的空闲时段,采用实习播音员坐镇口播新闻,其他时间段都是重播。

最近,KNews24频道更是干脆取消了在非东方卫视新闻时段以外的主播坐台直播,改以重播节目《看东方》等当日已播出的新闻片段,以及短视频剪辑等代替,不复当年24小时新闻台的风采。

此外,奇虎360也曾在与北京广播电视台合办的“北京时间”网站,开设一个专门在网络播出的新闻频道,回放北京卫视和北京新闻频道的一些节目,最近该频道也下线了。

所以我们完全可以想象,一旦新华社和搜狗推出的这一虚拟主播技术,推广到全国一些省市甚至是地方台,他们就可以用非常低的成本,开一个服务器,就实现24小时不间断的播报本市及全国新闻的目的,为自己家的融媒体“中央厨房”再增添一道菜,也不费什么事。

我们很容易想到真正的播音主持专业学生和老师们,听到“AI主播”的消息时,内心当然是拒绝的。但他们可能多少都已经有了心理准备。早在《创新中国》复原已逝的李易声音时,播音圈里已经有过讨论。乐观者如丁龙江先生,他是中国传媒大学播音主持艺术学院口语传播系主任。他说:

“《创新中国》模仿李易音色智能解说,虽走出可喜第一步,但仍处于句法关系层面的逻辑重音处理,距离播音学掌握的重音表现手法尚且差距很远,更别说落实话语本质的内在语。人在表达沟通上使用语音幽渺难知,估计得量子计算。我们等着那一天。”

(https://weibo.com/1236270431/G1iYQ6knL)

但不到一年时间,新华社“AI主播”已经不需要人工修音,在自动实时生成的基础上,效果也正变得越来越好,因此播音主持从业者也很难再保持平静。有一位老师的朋友圈写道:

“今晚因为这个新闻,朋友圈的气氛有点低,大家都有点担心AI会取代主持人的岗位,有学生说要没饭吃了,心里慌慌的,也有人说AI不能做现场报道,不能处理突发新闻。”

这位老师说:

“主持人行业近年来本身发展进入了瓶颈期,不可否认,AI播报员的出现会给这个行业带来冲击。毕竟,写几个代码就可以超越你大学四年苦练得来的好口条,谁不恐慌?这就给播音主持的教学和人才培养敲响了警钟。传统的人才培养目标和教学,很快就不适应市场的需求了,得做好变天的准备,这个时间或短或长,只要这个行业不那么坚守阵地,也许明天,也许明年。”

(https://www.weibo.com/1522981117/H1Dorond7)

确实,中国的播音主持培养体系,应该从此开始有一个根本性的变化,也向世界各国的实践看齐,从前方记者中出人才。我们播报新闻的人,也应该具有自己的“自由之精神”和“独立之思想”,才能区别于一个“念稿子的机器”。他们需要从现有的有快速反应能力的记者队伍当中遴选出来,他们应该做一个现实生活当中的多面手,而不是只会以端正的坐姿完成任务。

兴许,在技术的倒逼之下,中国的电视新闻事业,将有可能会比全世界其他任何一个地方,都更多、更快的迎来革命性的变化。

2018.11.9

欢迎随手转发到朋友圈。寻求转载授权,请关注微信公众号航通社 (ID:lifeissohappy) ,并在后台留言输入关键字转载。转载时请保留版权信息。