解析Google/亚马逊两强智能语音助理优势、硬件、软件技术及发展趋势

科技产品的革新浪潮因为人工智能、深度学习、自然语言处理等等技术而再次启动,许多老企业新公司相继投入进行研发或推出各种产品与应用,也为新创团队创造许多加入市场的机会。参加竞赛是新创团队获取曝光、资金、辅导、专业咨询等等资源的场域,更有机会与大企业合作,做为信息通讯领域新创团队的推手之一,“mobileheros通讯大赛”已经举办了15年,更以促进新创意、新技术、新应用为出发点,召募众家好手参与竞赛,今年将鼓励团队运用各种人工智能技术,打造智能家居、智慧城市的装置及应用,让作品更有温度、更加人性化、更能聪明的满足使用者需求。
人工智能的相关技术很多,其中智能语音助理因为 amazon alexa 已为许多硬件产品所用,具有“动口不动手”极为方便的使用方式,并与使用者的需求及工作、生活情境关联性强,因此本文以智能语音助理为主题,从说明亚马逊/google两强优势开始,提供他山之石做为参考,并逐一解析硬件/软件技术及发展趋势,期待让有意参加2017年通讯大赛的团队获得启发,同时给任何想投入此领域的团队做为参考。
从 amazon alexa 看智能助理的应用:智能助理高智商、数字服务一手包
亚马逊amazon的家用音乐播放器echo依靠具备人工智能的alexa,窜起成为数字家庭中枢,2017年ces几乎就是其主场,家电搭载alexa瞬间智慧上身,从食衣住行到柴米油盐酱醋茶,俨然就是全能的智能小管家,其中核心的关键就在具备语意识别能力的自然语言处理技术,在使用各种数字服务时,可以动“口”不动手。
echo 于2016年在北美家庭掀起一波热潮,原本产品里小小的巧思-语音助理alexa立了大功,也造就2017年初美国消费性电子展ces,没有参展的amazon竟然大出风头。家用音乐播放器根本就是老掉牙的产品、数字语音助理也不是甚么新玩意,为什么竟能将早就被打入冷宫的数位家庭再度炒热?加入了人工智能(artificial intelligence, ai)、深度学习(deep learning)、自然语言处理(natural language processing, nlp)的智能家居助理,可能会卷起下一波科技产业革命的大浪潮。
从智能家居助理的功能与型态来看,硕网信息总经理邱仁钿指出,数字生活助理以echo为例,可以协助人们处理所有可数字化的工作或服务,这部分装置可再延伸到像pepper、zenbo、robohon、kirobo mini等具备移动能力,除了数字服务之外还提供学习或陪伴功能的机器人。另外,提供家事服务的扫地、拖地、擦玻璃、煮饭等无法数字化的服务,目前市面上已有多种单一服务的产品,但具备更智能化,可以处理复合式工作与突发状况的家事机器人则还需要至少五到十年后才会看到。
▲硕网科技总经理邱仁钿指出,智能助理可协助人们处理数字化的服务,提供更便利的生活质量。
在语音识别与人工智能结合之后,利用语音指令操作硬设备出现重大突破。亚马逊在2014年底正式推出echo声控扬声器,并可透过其内建的alexa语音助理,为用户提供查询天气、订购商品、控制家中其他电器设备等种种应用服务。
echo推出后,不仅引发话题,更在消费市场上获得欢迎。据研究机构consumer intelligence research partners预估,自2014年底上市以来,echo扬声器在美国已卖出超过510万台。由于echo扬声器并非个人消费性电子产品,其销售型态比较接近一户一台,因此510万台这个数字已相当可观。
有智慧的语音识别:amazon、google 两强相争
就在echo扬声器取得重大成功之后,同样在人工智能领域有深入布局的google,在2016年底发表google home,该产品同样是搭载语音助理及人工智能的扬声器,与echo在本质上并无太大差异。不过,由于google本身已经有相当多样化的云端服务,因此google home所搭载的google assistant语音助理,未来很可能会与自家的其他服务进一步结合,以便满足消费者各式各样的需求。
但亚马逊也不是省油的灯,或许是早已预料到其他大厂也将加入智能扬声器战局,该公司早在echo推出后半年,便宣布将开放alexa服务给其他开发商使用,同时还提供相关硬件开发工具包给其他公司,要借助生态系的力量来拉开与其他竞争平台的差距。截至目前为止,alexa已经有上万项技能(skills,类似智能型手机上的app)可供使用者下载,涵盖领域包含天气预报、新闻、家庭自动化控制、教育、运动健身等。
▲echo扬声器所搭载的alexa语音助理,已经成为一个庞大的生态系统。(数据源:亚马逊)
硬件面:麦克风技术、语音讯号处理器商机涌现
智能语音助理与硬件结合成为优秀的产品或服务,关键包括硬件、软件与云端。在硬件面,收音系统的设计涉及许多声学上的专业及复杂的算法,例如指向性收音、回音消除、背景噪音消除等。而在软件面,系统除了要听得懂各种自然语言外,还得考虑各地方腔调、习惯用语等变量,才能提供精准的识别结果,并进一步将其中的关键词萃取出来,转化成系统能理解的指令。
智能扬声器的使用者体验好坏,主要涉及四大环节,分别是收音麦克风、语音处理器、语音识别引擎以及云端上各种应用服务。其中,收音麦克风的设计,是智能扬声器能否精准识别用户指令的第一道关卡。
一般来说,驻极体麦克风(ecm)的讯噪比(snr)是最好的,可达70db以上。截至目前为止,专业录音室所使用的麦克风,基本上都还是ecm的天下。不过,微机电(mems)麦克风的讯噪比近年来也有显著改善,目前业界的水平可以做到64~65db,与ecm的差距正在拉近。
不过,ecm有一个先天的缺点,就是采用数组式设计时,ecm麦克风模块的组装加工较为困难,mems则没有这个问题,在大量生产时,加工相对简便。不过,mems麦克风先天上对低频的反应不如ecm麦克风,这也是应用开发商在选择麦克风组件时,必须特别注意的。
因此,就智能扬声器应用来说,未来应该会是以mems麦克风为主流。毕竟,在采用数组式架构的前提下,mems麦克风有很明显的优势。目前市面上的智能扬声器,绝大多数都是采用数组式麦克风,例如中国科大讯飞和电商平台京东联合成立的灵隆科技,便推出了采用五颗麦克风的叮咚音箱,亚马逊的echo则内建七颗麦克风(图3),google home则只有两颗。
▲echo扬声器顶端的周围与正中央,一共内建了七颗mems麦克风。(数据源:ifixit)
在麦克风接收到声音讯号后,后续的噪音消除、回声消除、音源追踪、背景音消除等功能,原则上都是透过语音处理器搭配各种专用算法来实现,有些则可以透过更后段的语音识别引擎来处理。不管是微处理器(mpu)或数字信号处理器(dsp),都可以扮演语音处理器的角色。
目前市场上最主要的语音处理器供货商,除了与亚马逊结盟的科胜讯(connexant)之外,台湾本土ic设计公司骅讯、瑞昱、新唐也都有芯片解决方案。楼氏电子(knowles)则为了强化其麦克风业务布局的完整性,购并了语音处理技术公司audience。据了解,联发科内部也有一支研究团队正在研究相关题目,更有意要打进亚马逊供应链。
事实上,语音处理器已经是相当成熟的技术,加上半导体效能飞快成长,就硬件的层面来说,针对一般应用,目前市面上有很多平价cortex-m微控制器(mcu)或入门级dsp,都已经能扮演语音处理器的角色,差别仅在于各家厂商所开发的独特算法,可能在不同的特定情境有特殊优势;又或是某些针对高阶语音设备,例如远距会议设备所设计的专用芯片,以便执行一些非常复杂而特别的算法。
认识语音识别技术:动口不动手 人机互动新革命
在信息时代,人与机器沟通不脱i.o.p.s.(input、output、processing、storage),而在wintel主流阶段,pc是最重要的信息设备,沟通工具是键盘与鼠标。进入移动通讯的时代,智能型手机是核心信息设备,沟通方式是触控,原则上人机沟通革新会朝简化与直觉的方向发展,也会带动一波新的软硬件商机;过去的我们就不仔细谈了,接下来这波革命,看起来具备人工智能的硬件(例如echo)可能会是核心装置,人们只要透过语音就可以完成心中所想的工作,人机沟通方式再简化,而其具备的软硬件技术与带动的商机,正是这波浪潮的核心。
语音人机互动的方式完全没有ui,邱仁钿表示,alexa的语音分成两个部分,前段的语音识别与后段的语意理解,真正的人工智能是在后段。echo唯一的关键词就是“alexa”,所有的服务都由此启动,数据决策技术长尹相志说明,智能家居的人机互动以语音为核心,人工智能的语意理解在机器运算中都是用图像加上数学逻辑,西欧语系因为逻辑较为简单,加上由数十个字母,数百个词汇组成,深度学习技术已经可以破解,除了语音识别率高达95%~97%之外,解读语意并产生正确回复并不困难。
▲数据决策技术官尹相志说明,智能家居的人机互动以语音为核心,不过由于中文词汇数量繁多,且中英、中日语言用法夹杂关系,故中文版语音识别难度很高。
早期的语音控制系统其实并不好用,使用者必须记住很多指令,而且要一字不差地念出那些指令,系统才会响应。不过,自然语言处理技术(naturl language processing, npl)取得重大进展,让使用者不用再背诵指令,可以用很自然、口语的方式表达其意图,识别引擎则从中提取出几个关键词,经过演算、拼凑后判断使用者意图,并执行相应的指令。
相较之下,中文是目前还未被人工智能破解的语言,尹相志指出,中文字超过2万个,词汇超过百万,又可以任意组词产生新的意思,其中又有中英、中日夹杂的用法,加上网络流行的火星文,对机器来说不仅没有逻辑,也无法响应。因此,预计中文的智能家居助理最快要2~3年后才可能问市。
智能助理推动智能家居的发展:导入人工智能与平台化
随着智能助理技术兴起,平台经济的发展变得更细致与多元,跨边界(双向循环)的平台经济将取代传统的单向/线性产业服务。基于此,不仅智能助理硬设备需持续发展演进,下一步则须强化家中联网设备与第三方服务商的连结性,以提供额外的加值服务。
举例而言,gartner(台湾地区)研究总裁蔡惠芬表示,2017年将会看到传统开发商为了增加其产品特性,将智能家居产品导入房屋设计中,尤其在中国,一些开发商甚至会将机器人导入房屋内,其中主要的诱因不单只是为了创造噱头,而是看中机器人背后所带出的服务商机,包含医疗、健康、安全甚至是购物等销售服务,而这也是开发商未来可以转型,提供一体式的产品服务契机,而非只销售卖一栋房屋就结束。
▲gartner台湾研究总裁蔡惠芬表示,现已有越来越多中国开发商开始导入智能家居产品,其因在于中国开发商看中智能家居背后的服务应用商机。
智能家居目前尚处于萌芽期,虽然联网问题已被解决,而底层的硬件成本也日趋下滑,但核心发展要素的汇整分析平台依旧还在破碎阶段,需历经三至五年时间才有望趋于完整,而这部分也是人工智能导入智能家居最具挑战之处。
未来智能家居将朝向平台经济发展,其中,串联第三方服务则是必备条件,然而在此之中,由谁来划分拆帐机制、由谁管控服务质量依旧难以界定。换言之,在服务体系与机制尚未建立的情况下,平台经济发展备受挑战。现阶段,amazon正积极布局第三方平台整合,故可看出amazon平台的生态体系中,有很多家电公司、维修服务与加油站等各类公司。不过,智能家居在地化服务是核心要素之一,如何将智能家居机制与小区融合,与在地商业伙伴整合是非常重要的一环。
现在智能家居发展主要重点,第一个是人工智能,以摆脱传统监看控制的角色,未来会有更多互动出现;再来,以前可能是针对家中装置控制为主,之后可能会朝向提供与家庭有关的各式各样服务,以家庭为核心,将服务范围扩散到家庭以外的地方,除了与家电的互动,还包括了各式物联网终端。
生态体系的服务整合平台部分,都是透过智能家居助理的语音服务,建立的生态体系而非单一产品。未来,在智能家居环境中,最后赚钱的利基市场必为后端服务平台,其中包含家电与电商产业,看中的非硬件,而是最后应用服务为导向的市场。
将各式各样的智慧应用服务带入家庭,可说是科技产业追逐已久的大梦,但要如何让使用者与机器设备自然地互动,却是人因工程上的大挑战。就人类的角度,最终极的人机接口应该是用意念来对机器下达指令,但目前相关技术还在基础研究阶段,短期内很难看到商品化的机会;动口不动手,用自然语言来传达指令,则是次佳的解答。但这项功能在硬件和软件方面,都有很大的技术挑战。
有鉴于此,如何建立生态体系是很重要的,或者是在某一个生态体系中扮演关键角色,我们在这个趋势下应该思考建立自己的平台,不是要自外于国际趋势或主流平台之外,而是避免过去电商发展的前车之鉴,将相关活动所产生的有价值的金流、信息流等留在岛内,强化台湾特色,透过整体性的思考产生灵活的策略,例如利用台湾硬件技术优势,投入关键零组件研发,掌握蓝海商机,此为后续布局智能家居所需审慎思考的问题。
他山之石:以2016年通讯大赛的得奖作品为参考对象
本文以...