利用可穿戴设备的语音交互,云知声看到了又一个做平台的机会

yunzhisheng1_副本

语音交互服务提供商云知声周五在北京发布了基于语音命令的,专门为可穿戴设备使用的安卓ROM,同时也有一个配套的手机客户端。他们也宣布了跟两家芯片商君正芯片、豪恩声学共同打造的整套开发解决方案,以及展示了应用这一方案的智能眼镜和智能手表。

整个发布的这一套东西非常有意思。可穿戴设备相对于手机在应用场景上的不同,给他们带来了新的发展空间。我们都看到了手机上的情景是怎样,在国外就是苹果和谷歌两个官方商店就可以了,在国内出现了大量的安卓第三方应用市场,但是这些应用市场只是依附于某个ROM,或者本身并不能创造太多的利益。而ROM的混战之所以有意义,也是因为不同ROM在视觉上和触摸可实现的功能上差异很大。应用分发这门生意早早的就被几大巨头所垄断,大家在手机刚出来的时候看到的短暂的创建平台的机会很快消失了。

在可穿戴设备的时代到来的时候,首先是以特别细小的屏幕和语音进行人机交互的设备优先诞生,我们看到了智能手表或腕带,以及智能眼镜这两种设备。因为他们跟手机相比,天生存在屏幕较小的缺陷,所以用语音输入是非常自然就可以想到的办法,但是现在为止的设备,种类很多,做的好的却不多。

我在参观上海硬件展的时候就特别看到了这样的情景。比如说盛大的果壳手表,它是有语音交互的,但是却只限于盛大自己开发的一个语音助手。接下来,它必须煞费苦心让应用适配圆形表盘,甚至开发了特殊的十字输入法。

相对而言,语音识别需要软硬件的相互配合,只有一个软件还不足够。现在发展不起来也是多方面原因造成的,比如说现在大家还没有拿到眼镜或者类似产品的原型,也不知道如何开发。在我们开发手机App的时候,就算没有安卓系统,其交互原型也是我们在各种MTK山寨机的锤炼之下所掌握的,这是给手机屏幕设计交互模式的天生优势。

只有在真正使用时,原先脑内预想的情况才会被验证,你也才会发现真正的问题出自何方。实际过程中,硬件制造商会发现这些问题:

  1. 麦克风效果差,布局不合理,原始语音获取难;
  2. 可穿戴设备自身的运算能力弱,处理速度慢;
  3. 速度快的芯片能耗高,甚至几个小时就没电。

这也是云知声这次要一口气推出包含低能耗芯片,语音模块和ROM在内的整套解决方案。“交钥匙”的方案让联发科获得了众人皆知的成功,而智能手表和眼镜领域,还在等待一个统一标准的出现。

yunzhisheng2_副本

在现场,云知声COO康恒说:

比方说我们跟宏天科技一起研制智能眼镜,针对这个设备做语音交互的时候遇到了很多的问题。在开发板上语音识别的效果还是不错的,但是拿到第一个手板的时候,语音的识别率出了各种问题。后来我们做了一些研究:第一,麦克风的开孔位置是不对的;第二,麦克风的选型不好,可能随便选了一个麦克风,在灵敏度或者阻挡方面都没有经过仔细的斟酌,导致最后识别到的语音是有问题的。后来我们跟豪恩声学一起做了很多适配的操作,我们重新选择了开口的位置,包括在麦克风的选型上,选择了针对云知声的语音识别做了非常好的适配的麦克风,最后经过这样一个调整之后,云知声识别的和交互已经达到了非常好的水平。

另外一点,从硬件的角度上来说,有的时候不一定是软件去适应硬件,有时候硬件要适应软件。我们知道Google Glass上面有一个非常炫酷的功能就是语音唤醒,我直接对着眼镜说 OK Google 这样的话,是可以做到完全解放双手的,只有这样可穿戴设备才能够达到非常好的体验。但是语音唤醒是要求在系统上连续不断的运行一个语音识别的引擎,会大量的消耗CPU,以及电池的电量,最后就导致这个功能虽然很好用,但是电量不经用。所以在硬件这一块,刚刚君正这一块推M200平台,加了一个超低功耗的语音识别模式,最后达到的效果就是,既可以非常快的,非常有效率的去做到语音唤醒,同时还可以保证电池的能耗保持在可以接受的范围之内。

yunzhisheng3_副本

yunzhisheng4_副本

开发这款Cloud-i眼镜的宏天科技CEO潘立夫说:

最大的一个优点还是低功耗。我不知道现场有没有真正去拿着谷歌眼镜去用过的,我们公司有两部,但是遇到几个问题,第一个就我们刚充点电,把自己的APP开始跑,跑到不到一个小时就没电了;跑到十几分钟的时候就开始发热,戴在脑袋上都烫的慌,所以这个问题是很严重的。君正就解决了功耗问题,我们这款机在待机的情况下功耗只有2毫安,我们的电池是500毫安的,所以我们的待机时间是很长的,几乎是一个星期之内你是不需要再充电的。

设计之初,他们刚才也讲了,开孔是开在眼镜的下半部分,就是那块屏幕前面透明部分的下面,导致前期我们在开发板的时候很顺利,大家都觉得这一块应该很不错,无论你说什么他都可以听懂。但是放在眼镜上面就完全不是一个概念了,我们的项目就一直停在那里,大概停了一个多月。后来是豪恩声学他们提出了解决方案,把我们的麦移到了另外一边。

现在这款体验是比较好的,只要你说“你好,眼镜”,基本上他能收得到,能念出很多的词出来。之前我们喊半天,——因为我们公司有产品测试部,产品测试部刚好是在公司的正中间,旁边销售部、研发部每天听到最多的一句话是“你好,眼镜”,导致我们公司所有人都知道怎么操作眼镜了……

yunzhisheng5_副本

归根结底,至少在手表和眼镜这两种可穿戴设备上,它们的交互不是通过眼睛,或者说眼睛并不是主要的渠道。它上面能够显示的可视区域都非常小,为了这个很小的互动区域,需要作出很多妥协,包括耗电和运算能力。通过语音,就像是戴了一个耳机,有人在跟你讲电话一样,是非常自然的方式。成功的可穿戴设备最终总是要模拟人与人之间正常交往时候的途径,而语音几乎是我们能想到的最好选择。

基于这样的认识,作为沟通界面的语音,就不存在界面设计的问题,也不存在什么拟物化或者是扁平化的差异。人对于声音的辨别能力,远小于对图形的辨别能力,所以不管这个可穿戴设备的内核是功能机,山寨机还是智能机,不管采用的系统是iWatch,Android Wear或者是单独开发的系统,最终做的事情都差不多一样。

事实上,在可穿戴设备上,单个应用的重要性已经越来越小,相对的,应用分发渠道的存在意义也越来越小。已经在手机上建立起来的以应用商店为中心的盈利模式和生态圈,到可穿戴设备的年代,可能就需要来再多一次的颠覆。

打赏