跳转到内容

人工智能如何赶走公交售票员

本文首发于航通社,原创文章未经授权禁止转载。航通社 微信:lifeissohappy 微博:@lishuhang

在坐公交车的时候,如果是有人售票的话,在扬声器传出的机械的甜美女声报站之后,售票员的重复报站就会适时的响起。

例如说刚听得一番“各位乘客,前门到了,请您从后门下车”,马上售票员就会加上一嗓子:“前门到了啊,前门,去前门的去大栅栏儿的,去正阳门毛主席纪念堂的,抓紧了啊,后门下,后面下,下车要刷卡啊,哎您刷卡,来不下的给前面下车乘客让一让来”。

我很早就怀疑售票员存在的意义是不是要解决为数众多的北京土著的就业安置问题。在每台车又专门配备了身着安保黑衫戴鸭舌帽的男性保安员以后,车厢更拥挤了,我的这个疑问也更强烈了。

不过在一两次坐过站以后,我就发现了售票员目前来讲难以替代的好处:她们的声音不仅突兀嘹亮,而且非常个性化。有她们在,你会更不可能犯迷糊坐过站。北京当地的大姐们都用含混不清的北京儿话儿讲,就等着你听不懂问她呢。

如果我没带公交卡,我会和售票员产生交互,并对她说一声谢谢。不过,我想我不会为无人售票车的钱箱,或者报站的大喇叭说谢谢。此外,我不能和司机闲谈。

The Verge记者Chaim Gartenberg在Twitter上提了一个有趣的问题:当你要求Siri、Cortana、Alexa等语音助手为你完成一件事情的时候,你会说“请“和“谢谢”等礼貌用语吗?

74个人参与了投票,回答“会”的23%,回答“不会”的45%,回答“有时会”的32%。当然这是个取样特别不严谨的投票,但它提出的观点确实有启发性。

如果语音交互的最终目的,是基本做到和一个真人之间打电话类似,就像《Her》给我们看的那样;那么声音将是让我们大踏步迈过恐怖谷,并沉浸其中的最大决定因素。不过很遗憾,现有的所有智能助手都没法用它们的声音通过图灵测试。

原因有三:

  1. 当前助手们识别能力的低下,导致在指令中多加一个无意义的词,反而会降低识别准确率。

关于语音助手的“智能缺陷”,在本月我的另一篇文章中已经谈过——多数助手甚至都不能改一个属于自己的名字。她们对上下文多轮对话的捉襟见肘也是一大问题。我们先不谈这部分。

  1. 从文本层面,助手们的回答已经不像人类。即使你想跟助手们玩角色扮演,她们可能撑不了几分钟就露馅。

来自文本自身的不协调感,意味着人类不会对你提的问题这样“接话”。首先是机器的回答有模板,而人类没有。你跟Siri问同一个问题,4-5次以后就会循环回最开始的答案。我们可能每次的具体应答,都会有一两个字的差异,其排列组合与机器预置的相比简直无穷无尽。

同时,不管哪种语言,都可以根据上下语境来省略某些句子成分,同时加入适当的语气词。但机器的回应,假如能做到《标准日本语》等教科书那种规范语气的程度,已经就是能力的极限了。

例如说,助手们喜欢说的一句话是“好的,已为您规划了到X地的最新路线。”我们人类说话是这样的吗?我们说的大概是这样:“喏,地图上说这么走最快,我给你看下。”

或者助手会说:“为您播报当天的最新新闻。”那如果是你回答身边人的询问,一般是这么说:“给你念两条新闻哈。”也许你可以自己想象到不同的,更自然的说法。

  1. 更糟糕的是,助手们的声音也太机械化和营业式了,无法让人产生共情。

机械声音让我们产生的不协调感(违和感),来自于其逐字合成的语音语调。也就是说,正常人不会用这样的语气音调跟你说话。你可能闭上眼睛努力想象自己面前坐着一个萨曼莎,但接下来那种人造的声音可能让你“一秒出戏”。

就连微软小冰也不例外,她一直以自己的声音更接近真人为自豪,但听过觉得也就那样子。

这也是我开头提到的公交地铁当中机械的报站声音,和售票员的嗓音之间存在的不可弥合的鸿沟。在机器自动报站之外,“画蛇添足”地加入人工语音的做法,就是为了让条件反射性忽略默认报站音的乘客,能提起足够的注意。

我们在生活中可以接触到各种各样的提示音,包括ATM、商场广播、机场广播等等。但它们可能是觉得要更文明一点,居然走的是用轻柔的,字正腔圆的人声,模仿机器般精确、一丝不苟的路线。听多了,人们真的会自动跳过这个提示音的,要是因此误事不是很麻烦吗?

所以,我觉得这个问题,不仅对AI语音助手行业,甚至对我们已经广泛应用的,预先录制好的服务业提示音,都是一个启示。

虽然售票员的声音确实提神醒脑清热解毒,但是绝大多数情况下,拥挤的车厢内大家都是只听到这个售票员的声音,而不是一定要看到售票员本人真的在说话才警觉。

假设我在机械式的女声报站之后,又放一个以售票员粗犷语气播报的录音,是不是人肉售票的角色就能被完美的替代了呢?

其实真正这么做的就是邻国日本。如果你在日本坐过电车或者地铁的话,你会发现,它的报站声音跟我们那种字正腔圆的声音完全不一样,是拖着长音,余味悠长的,甚至有点儿“丧”的声音。“池袋~池袋~”这样的。

正是这种声音,可以说是完美的复制了当年没有录音的时代,通过人工报站的那种声音,让当今乘客穿越了几十年,和那时的东京通勤族听到的体验是一样的。这种声音和营业式礼貌声音的巨大的反差,有效的保证了人们引起足够的警觉,不至于错过列车,是日本人性化服务的其中一个例子。

那么,如果我们把售票员的声音请过来了,她和安全员发挥的“眼观六路,耳听八方”的能力又怎么复制呢?

这也好办——弄几个摄像头,人脸识别一下,然后“那边穿短袖的小伙儿,对就是你,麻烦您给孕妇让个座儿”也就能无缝复制了。

你看,人工智能其实应该用在这样的地方,不是么?

欢迎随手转发到朋友圈。寻求转载授权,请关注微信公众号航通社 (ID:lifeissohappy) ,并在后台留言输入关键字转载。转载时请保留版权信息。