031 智能音箱的战斗:语音助手Alexa 作为智能音箱核心功能的语音交互,或者更通俗的说是“语音助手”,对Echo来说是最重要的一个模块。在Lab126研发音箱的早期,Echo既是音箱的代名词,也是语音助手的代名词。由此可见,语音助手并非一开始就作为独立模块存在。

语音助手不是个新鲜事物,市面上早有独立的语音助手存在。在这个领域最有远见的,无疑是苹果公司的创始人史蒂夫 · 乔布斯。

Siri原本是在苹果上面大卖特卖的一款App,发布后没多久,被乔布斯看到。乔布斯很有远见地预见到了语音交互的重要性,迅速把这个公司的软件买下并整合进了iOS,成为iPhone非常重要的功能。

我有时候不得不感叹人生不逢时,或者是天妒英才。今天来看,乔布斯收购Siri的目的,肯定不仅仅是让它成为iPhone里面一种可选的沟通方式,他肯定在下一盘很大的棋,但是一切都随着他的去世而烟消云散了。

Siri作为iPhone上的语音助手,此后在蒂姆 · 库克(Tim Cook)领导下的苹果公司发展,可谓乏善可陈。而此后微软和谷歌都进入语音助手市场,无论是Windows 10还是安卓手机都实现了对语音助手的支持。

但是我们知道,这两年最红火的语音助手是Alexa,它属于亚马逊。

全力以赴打造语音助手

Alexa是怎么诞生的呢?这就要回到2015年8月,Echo智能音箱卖了大概10个月之后,亚马逊突然意识到自己的语音助手可以作为一个独立的云服务存在,并不一定要和Echo智能音箱捆绑在一起。

于是亚马逊悄悄地把那个叫Echo的语音助手改名为Alexa。Alexa原本是亚马逊旗下的一个网站分析工具,语音助手算是鸠占鹊巢。没过多久,谁也不再记得那个曾经的网站分析工具了,Alexa成了专门指代亚马逊语音助手的名词。

但是为了保证向后兼容,在Echo智能音箱语音助手的提醒词里,虽然默认是Hello Alexa,最初推出音箱时用的提醒词Hello Echo也依然保留着。只有从提醒词里,我们才能够看到过去的痕迹:原来Alexa曾经叫作Echo。

亚马逊最初研发音箱的时候,对语音处理技术的重要性并不是特别清楚,所以语音助手的技术水平很一般。当Echo音箱卖得很好时,亚马逊很快就意识到了语音处理技术的重要性,但是语音处理技术人才储备并不多。索性西雅图有一家在消费市场并不是特别知名,但是在专业语音处理领域非常著名的公司Nuance。

Nuance在西雅图有一个研发中心,中心里有很多专门做语音处理技术的人才,亚马逊就狠狠地高价在这家公司里面大肆搜罗了一番。最后,Nuance西雅图研发中心的很多核心人员都跑去了亚马逊。

为了进一步增强在语音处理领域的技术和人才储备,亚马逊又迅速出手,接连收购了Yap和Evi两家创业公司。至此,亚马逊终于有些安心,给Alexa储备了足够的语音处理人才。

用机器学习搞定语音识别

Echo首先是个音箱,而音箱的主要功能是放音乐。但有些活动,比如聚餐、舞会中会有很多其他声源,这类场景下和音箱进行交互就有一个很大的问题:音箱如何在这些嘈杂的声音里识别出真正的交互命令呢?

应用场景的不同,决定了Echo音箱上的语音助手Alexa和手机上的语音助手对技术的需求有很大不同。简单来说,如果手机上的语音交互难度是一颗星,那么深处嘈杂环境下的音箱的语音交互技术起码得是四颗星。这是Echo智能音箱必须解决的一个难题。

在一次公开的交流中,负责Alexa相关业务的首席科学家、著名的机器学习学者罗希特 · 普拉萨德(Rohit Prasad)在接受采访时简单提到过,Lab126团队因为这个问题一度让Echo智能音箱项目被搁浅,最后不得不在全公司范围内寻求帮助。

而之后的解决方式是机器学习。亚马逊曾经在网络上公开过一段音频,对比了在嘈杂环境上的原始声音,和经过机器学习处理的声音。在音频里你可以看到,经过机器学习处理的音频达到了近乎完美的噪音过滤,这是Echo在极其恶劣嘈杂的环境下,依然能够表现出非常良好的语音识别功能的主要原因。

Echo上市以后,无论在多嘈杂的环境里,语音交互的识别能力都非常好,这是Echo能够迅速脱颖而出最重要的原因之一。

亚马逊公司长期以来给人的感觉是商业决策优于技术,亚马逊的核心技术并没有让人觉得多惊艳。然而在这件事情上,亚马逊显现了用技术解决难题的能力,这颇让我对亚马逊的印象有了很大的改观。

语音平台促进成长

Alexa从Echo独立出去以后,就开始在亚马逊的各大设备上集成,比如说亚马逊的Fire TV就集成了Alexa。Alexa在亚马逊内部可谓大行其道,任何一个项目组的东西如果可以和Alexa整合,在亚马逊内部的优先级都会上升许多。

除了“内销”,亚马逊还把这个语音助手“出口”到了各行各业去,包括智能冰箱、汽车,乃至华为手机,等等。Alexa的遍地开花,让亚马逊作为一个语音助手市场的后来者,占据了很多有利位置。

从技术开发上,Alexa也有了自己独立的研发团队,而且目前已经非常庞大,有包括一个总监在内的很多人。在亚马逊,如果一个项目有总监级别的人参与,就代表着这个项目实在是一个非常重要的项目,是公司首席级高管(C-level)可以直接看到和关注的项目了。Alexa有了总监级人物以后,在亚马逊的地位也就突显出来,不再是Echo下面的一个附属项目了。

在亚马逊内部,很多人都相信语音交互是一个非常重要的、新的流量渠道,而且在未来会更加重要,占领了语音,也就在未来的新交互方式里占据了一块稳固的地盘。所以自从Alexa独立以后,这个团队就一直在膨胀。很有意思的是,我在LinkedIn上经常可以收到来自亚马逊招聘人员的邀约,其中为Alexa招人的比例一直居高不下。

如果说一开始Echo作为一款智能音箱,对于亚马逊占领客厅和厨房很重要的话,那么现在亚马逊的语音助手Alexa和它给第三方开放的技能平台,则是亚马逊的重中之重。如果说这之前,亚马逊更关注音箱,那么Alexa作为一个软件独立出来发展后,亚马逊关注的重点也就从硬件转向了软件和平台:硬件,包括智能音箱在内,都是为这个软件平台服务的。亚马逊今天发展的各种硬件,确实已经变为主要为Alexa平台服务,硬件本身的作用已经远远比不上这个语音平台了。

有了这个语音平台,亚马逊不但可以在自己的硬件上推广,还可以把语音平台开放给第三方。让第三方的硬件都进入这个平台。这里就有华为的手机、LG的电器,未来我们还可以预见到的,比如说车载系统等等。

对比硬件的影响力,语音平台的影响力要大得多,最终平台会造就一个生态圈,而任何生态圈都有很强的黏性。亚马逊也可以凭借平台把影响力扩大到自己的业务之外,让Alexa成为整个互联网和IT产业里面很多公司都愿意加入的生态圈,这种影响力是智能音箱不可能达到的,也是亚马逊从来都没有企及过,但是现在却有可能成功的。

从Echo音箱到Alexa语音助手的变迁,是优先级的一个巨大改变。这个变迁在亚马逊里面用了10个月,亚马逊对市场反应的这个速度,让我非常吃惊。通常在其他互联网或者软件公司,这种变迁花费三年五年也是很常见的。这样看来,亚马逊能够在语音市场占据一片天地,也是有原因的。

参考资料

https://learn.lianglianglee.com/%e4%b8%93%e6%a0%8f/%e6%8a%80%e6%9c%af%e4%b8%8e%e5%95%86%e4%b8%9a%e6%a1%88%e4%be%8b%e8%a7%a3%e8%af%bb/031%20%e6%99%ba%e8%83%bd%e9%9f%b3%e7%ae%b1%e7%9a%84%e6%88%98%e6%96%97%ef%bc%9a%e8%af%ad%e9%9f%b3%e5%8a%a9%e6%89%8bAlexa.md