谷歌助手点餐,微软小娜下单:AI 横行的未来世界里,没有人类什么事

谷歌助手点餐,微软小娜下单:AI 横行的未来世界里,没有人类什么事

本文首发于百家号 原创文章未经授权请勿转载。航通社 (ID:lifeissohappy) 微博 @lishuhang


国内用户基本上已经熟悉了在手机上下单订餐。不过很多美国人依然习惯直接给餐厅打电话订位或订餐。

不过,如果有人对自己的手机说,想吃什么地方的什么菜,这个手机能够代替你,自动给餐厅打一个电话,用电脑合成的语音跟餐厅服务员点餐,那该是何等令人惊悚的景象呢?

这个时候如果我告诉你,餐厅接电话的服务员也是一个机器人,只要两个机器人之间语音通话,就能把餐送到你的面前,你这个时候又会怎么想呢?

1 | 谷歌替用户点餐

当地时间 5 月 8 日,2018 年谷歌 I/O 开发者大会在谷歌园区召开,会上演示的最惊悚的一项技术,大概就是使用谷歌助手(Google Assistant)生成一段就像真人一样打电话的语音。

这个 AI 助手能够用自动生成的语音与真人理发店店员,或快餐厅接线员进行对话。甚至,谷歌助手还在对话中展现出了强大的纠错能力。

图 / Google

图 / Google

在后一个演示的例子中,接线员英文不太好,没有听懂谷歌助手的诉求,对话过程是零散而混乱的。然而接线员的每一次理解失误,都能够被谷歌助手一一发现并纠正。

谷歌助手:我想定一个位置,在下周三,7 号。

餐厅接线员:7 个人吗?

谷歌助手:4 个人。

餐厅接线员:4 个人的话,哪一天,今晚还是明晚?

谷歌助手:下周三。

亲自负责演示的谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)说:“令人惊讶的是,谷歌助手能够理解对话里的细节之处。”

皮查伊将这一融合了语音-文字互转、语义理解、深度学习三大技术的功能称为“Google Duplex”(Duplex 有电信技术中的“双工传输”之意),计划今年夏天提供给谷歌助手用户测试。

2 | 小娜做餐厅员工

无独有偶,航通社(ID:lifeissohappy)曾在2016年11月参加过微软中国的一次技术交流会,微软展示的一个技术原型,则是让店员和顾客之间的对话过程转换为文字,同时即时抽取出菜单细节。

在一家麦当劳“得来速”(Drive Thru)汽车餐厅(司机不用下车即可点餐),服务员与顾客之间的对话,立即被语音识别转换成精准的文字,并且通过 AI 运算提取了客户描述的关键信息,不需服务员操作即可自动生成订单。

图 / 航通社(ID:lifeissohappy)

图 / 航通社(ID:lifeissohappy)

顾客:我想要两份快乐儿童餐,一个是吉士汉堡的,一个是鸡米花的,这俩都要加薯条和苹果片,一个配巧克力牛奶,另一个配小橙汁。

系统订单:1 快乐儿童餐(主食:吉士汉堡包,小食:薯条、苹果片,饮料:巧克力牛奶)+ 1 快乐儿童餐(主食:鸡米花,小食:薯条、苹果片,饮料:橙汁)

服务员:嗯。

顾客:再来单点两个吉士汉堡,这俩都不要洋葱,其中一个也不要番茄酱。

系统订单:1 快乐儿童餐(主食:吉士汉堡包,小食:薯条、苹果片,饮料:巧克力牛奶)+ 1 快乐儿童餐(主食:鸡米花,小食:薯条、苹果片,饮料:橙汁)+ 1 吉士汉堡包(特殊要求:不要洋葱)+ 1 吉士汉堡包(特殊要求:不要洋葱,不要番茄酱)

顾客:还有……一个薯条,一杯大杯咖啡,要两个咖啡伴侣,三包糖。

系统订单:1 快乐儿童餐(主食:吉士汉堡包,小食:薯条、苹果片,饮料:巧克力牛奶)+ 1 快乐儿童餐(主食:鸡米花,小食:薯条、苹果片,饮料:橙汁)+ 1 吉士汉堡包(特殊要求:不要洋葱)+ 1 吉士汉堡包(特殊要求:不要洋葱,不要番茄酱)+ 1 薯条(尺寸:大)+ 1 咖啡(尺寸:大,特殊要求:2 植脂末,3 糖包)

服务员:好的,谢谢。

在屏幕左侧生成对话语音转文字记录的同时,屏幕右侧结构化提取的订单信息也在即时改变。

如果顾客临时新增或修改了对某个产品的要求,那么也会把结果及时的显示在屏幕上。服务员不需要按动手指去选择所点的产品,就可以生成一份订单。

当语音合成技术足够成熟之后,像案例中这位人工服务员跟顾客交互的过程,就可以转换为电脑语音实现。这样,一家无人值守的麦当劳汽车餐厅就初具雏形了。

而更值得注意的是,这段演示的技术是 2016 年就已经达到的水平。

3 | 除了生产,消费也将由 AI 代劳?

很显然,如果把自动询问和自动应答的方式结合起来,那么不仅点餐员可以由机器取代,就连去点餐的顾客这个角色,也有语音助手来取代了。

当谷歌助手所代表的顾客,向微软小娜(准确的说法是 Bot Framework)所代表的店家来点餐的,就会出现这样一幅无比戏剧性的场面:

一个机器人向另外一个机器人点餐,最终把点好的餐送给主人。

——在整个过程当中,没有人类什么事情。

两个例子之间仅仅相隔 2 年多,语音助手的巨大进步令人吃惊。其中,最值得注意的突破,自然就是让助手记住上下文,进行连贯的,首尾相关的对话。

到现在,谷歌助手所演示的对话已经难以和真人在同一场景下能说的话区分。

或许今后唯一能够区分的线索就是,机器所生成的对话非常完美,不会有任何的停顿与错别字之类的东西,就像念稿子一样,完整而不间断的准确表达。

但我相信,如果人类想要的话,让机器再附加上一些人类才有的中断,卡壳现象也是不难的。

实际上,一旦 AI 理解了一个来自主人的订单需求之后,将其标准化,并直接使用数字表单的方式提交订单,当然是更简便,也更容易被机器理解的做法。似乎把它转换成语音实在是多此一举。

不过这种技术目前还是有一定用武之地的,主要是因为不能期望所有饭馆和小商贩,都有可适配的在线订餐系统,也许只是打电话给一个路边摊什么的,总还是需要与真正的人类打交道。

但是比起实用价值,无论如何都不能抹杀的,是这种语音交互所体现出来的强烈的符号意义。

机器人和机器人之间的交流,摒弃了任何人类的从中参与。而没有人类的参与,也就同时意味着,这当中的任何一个过程都不由人类来创造价值。

根据朴素的“多劳多得,按劳分配”的理念,如果不能为社会创造价值,一般来说,又没有什么理财或经营手段的话,人们就会没有收入来源,因而陷入贫困。

传统意义上,拯救这些穷人的方法,是让他们达到所谓的“自食其力”。然而,越是最基层的工作,就越会加速由机器人替代。

其实,机器人替代人类劳动之后,最大的问题,并不是人类不能工作了,而是生产出来的东西,没有那么多的家庭买得起,消费得起了。

也就是说,在消费者是谁这个问题上产生了麻烦。做出来的东西大家都享受不起,而唯一能享受的只有机器人。

最终,可能如同占有生产资料的资本家和普通老百姓之间的差异一样,是不是买得起一个机器人,或者简单点,买得起帮自己提高生产力的 AI 程序,一开始只是个小小的差异,最终却可能影响到不同人和家庭的社会分层。

机器人替我们说话,帮我们跑腿,他们为什么不能得到应有的回报,非要把劳动成果拱手让人呢?

而由这些机器人平白无故创造出来的财富,是理应属于它的所有者,还是属于溢出的剩余价值,要合理分配给社会大众呢?

这都是人们将不得不思考的问题。

谷歌和微软分别进行的两项技术测试,只是在告诉人类的伦理学家和政策制定者们,留给他们思考的时间不太多了。


相关阅读

你好,我是榨汁机

颤抖吧人类!AI 正占领中日播音主持人行业

在机器出事的时刻,人类要像机器一样操作

评论系统由 Disqus 驱动