亚马逊智能音响为什么搞砸了手机,却做火了智能音箱

拆解阿里/亚马逊/谷歌的智能音箱,发现了四个问题 - EDN电子技术设计
随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状。
如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障音箱;如果没有它,背后的人工智能技术牛X到天都没用!它是智能设备的“耳朵”——麦克风阵列。
“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。
(从左到右依次为叮咚音箱A1、亚马逊Echo、Google Home、天猫精灵A1)
而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是无头苍蝇。麦克风阵列是语音交互的第一步,在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域。
同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状。
那么我们经常提及的麦克风阵列究竟是什么?它有哪些类别及作用?哪些玩家参与其中?市场上各家智能音箱使用的麦克风阵列又有什么不同?
一、麦克风阵列:拾音
简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的一个关键部分。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)
(图为四款智能音箱的麦克风阵列)
麦克风阵列的功能就是拾音。在远讲语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中语音的识别率。
具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作用就是“众里寻他千百度”,在众多干扰噪声中寻找到你,但只是找到还不够,还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端进行有效识别,并满足你的任务指令。
而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。
而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清”。
二、麦克风阵列中的关键技术
在远场拾音中, 麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回声消除、语音增强。
1、声源定位
声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重要。
2、波束形成
波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方向的人声。
以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话者的交互。这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。
3、噪声抑制
你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱,这正是噪声抑制的作用。
简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算法,实现有效识别理解。
混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。
5、回声抵消
回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。比如在智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留人的声音,以供云端进行语音识别。
6、语音增强
在家居环境中,存在着背景噪音、回声、混响等噪音干扰,这些噪音相互叠加严重影响语音识别效果。除了降低各种噪声外,还可以从语音增强进行改善。
远距离拾音的另一个问题就是获取的语音信号较弱,需要通过麦克风阵列进行噪声分离,提取目标信号,并增强语音信号的能量,从而提升语音识别效果。
三、消费级麦克风阵列的里程碑事件
早在20世纪七八十年代,麦克风阵列已经被应用到语音信号处理中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。近年来随着语音交互成为趋势,麦克风阵列逐渐进入消费市场领域,日趋火热。
在麦克风阵列领域拥有丰富经验的先声互联创始人付强曾谈到,麦克风阵列在消费级领域出现有几个里程碑事件:
第一个里程碑事件是微软在2010年6月份正式推出的Kinect,它是Xbox 360游戏主机的体感周边设备,内置了红外线摄像头、传感器、麦克风阵列,可通过对用户身体动作的变化和发出指令来操作游戏。Kinect曾累计销量2900万部,但近几年逐渐推出了人们的视野。
(图为微软的Kinect)
第二个是三星在2012年推出的全球首款具有远讲语音能力的智能电视,该电视使用麦克风阵列,科胜讯的语音芯片,支持语音操控,并带动了国内的智能电视潮。
第三个里程碑事件就是亚马逊Echo智能音箱在2014年底的推出,其采用6+1麦克风阵列,支持5米远讲语音操控。Echo不但是第一款真正意义上的智能音箱设备,还是消费级麦克风阵列应用的里程碑事件,并带火了当下国内这波智能音箱浪潮。
(图为亚马逊智能音箱Echo)
其中,三星的第一款智能电视和亚马逊的Echo智能音箱都用了4年时间去打磨,才有了今天的技术成熟。而反观国内的智能音箱浪潮,我们还缺少这种对技术的长线投入和对产品的耐心打磨。
四、麦克风阵列的代表性玩家
随着国内智能音箱以及语音交互的火热,在麦克风阵列以及远讲算法领域诞生了一波方案提供商,其中能够提供麦克风阵列的硬件方案,又能够提供前端算法的厂商并不太多,本文选出了具有代表性的几家方案厂商。
1、科大讯飞——国内语音龙头
科大讯飞是国内一家老牌智能语音公司,其有一个专门的团队在研究麦克风阵列技术。目前在讯飞开放平台上,提供二麦线性阵列、四麦线性阵列和六麦环形阵列。中兴、海康威视、美的、高德、优必选、狗尾草等都是其客户。
叮咚音箱就是由京东和科大讯飞联合成立的灵隆科技推出的,其中科大讯飞提供语音语义等技术支持。叮咚音箱A1是国内第一款真正意义上的智能音箱,于2015年8月正式推出,它采用7+1麦克风阵列,豪恩声学提供的ECM麦克风,并采用科胜讯CX20810-11Z音频芯片。在结构上不同于其他智能音箱置于顶部,而是位于主控电路板下面,并采用中空结构,麦克风向外侧倾斜拾音,颇具创意。
(叮咚音箱A1的7+1环形麦克风阵列,黑色为麦克风)
2、科胜讯——国际语音方案巨头
科胜讯成立于1999年,曾是全球最大的独立通讯芯片提供商,后来几经波折被新思科技收购。在语音交互领域,它主要提供语音芯片和麦克风阵列技术,其方案最大优势在于降噪和语音增强算法,技术打磨也更加成熟。难怪科胜讯总裁Saleel Awsare会说,其双麦克风就可以实现友商5-8麦克风的解决方案的效果。
亚马逊、百度、阿里巴巴、腾讯、哈曼、科大讯飞、出门问问、云知声等都是其客户或合作伙伴。据了解科胜讯为Alexa Voice Service (AVS) 量身定做了AudioSmart 语音处理开发套件出货量已超过3000万套,涵盖智能音箱、智能家居、智能电视、机器人等多个品类。出门问问刚刚发布的智能音箱也采用科胜讯的方案,此外,苹果HomePod也可能采用了科胜讯AudioSmart开发套件。
3、先声互联——阵列研究先行者
先声互联是一家成立于2016年的创业公司,主要提供麦克风阵列以及前端信号处理技术。其创始人付强曾在中科院声学所有10余年的声学研究,在语音信号处理领域有20余年的积淀。先声互联目前主要提供两麦、四麦、六麦等解决方案,在抗混响、回声消除、语音增强等方面表现不俗。
先声互联是百度的合作伙伴,其多麦克风硬件开发套件也应用在百度DuerOS平台中。目前,物灵的luka阅读养成机器人、极米科技的Lightank W100、数字家圆的亲见H2等产品都采用了先声互联的远讲算法以及麦克风拾音模组。此外,先声互联也正在和腾讯、联想、小米等公司就某些智能硬件产品展开合作。
4、思必驰——成熟方案输出商
思必驰成立于2007年,是一家面向B端客户的语音语义技术提供商。其副总裁雷国雄告诉笔者,思必驰从2012年就开始研究麦克风阵列技术,并配备一个专门的团队研究语音信号处理,结合思必驰的语音进行优化。目前思必驰提供单麦、两麦、四麦、六麦等解决方案,经过5、6年时间的积累,在性能和稳定性上均表现不错。
近期阿里推出的天猫精灵X1就是采用思必驰的环形6麦克风阵列,模拟麦克风则来自敏芯微电子,天猫精灵在降噪、回声消除等拾音方面均有不错表现。此外,联想、小米、美的、360、DOSS等都是其客户。
5、声智科技——新起之秀
声智科技也成立于2016年,提供麦克风阵列以及远讲算法,目前其推出了单麦、两麦、四麦、六麦、八麦的阵列解决方案,也有不错的表现。有趣的是其创始人陈孝良也来自中科院声学所。
近期刚刚发布的小米AI音箱,就采用了声智科技的环形6麦克风阵列和唤醒技术方案。声智科技也是百度的合作伙伴,推出了基于DuerOS的语音解决方案。此外,腾讯、阿里巴巴、奇虎360、华为、海尔等都是其客户。
五、麦克风阵列:两路分化
目前智能音箱中的麦克风阵列呈现两路分化,主要包括环形和线性。亚马逊Echo、叮咚音箱、天猫精灵、小米AI音箱等技术路线相似,都使用6(+1)、7(+1)个麦克风的环形阵列,而Google Home、出门问问的问问音箱则采用了2麦克风的线性阵列。
(亚马逊Echo的6+1环形麦克风阵列,金色为麦克风)
为何各家使用的麦克风数目不一,真的是数目越多越好吗?先声互联付强曾从技术的角度谈到,事实并非如此。目前麦克风阵列语音增强大致可分为两种技术路线:
一种是以亚马逊Echo为代表的经典波束形成路线,它对麦克风的数目以及阵列拓扑结构(排列位置)依赖较大,通过使用较多的麦克风以及特定结构,从而使得波束的空间区分性更强,保证声源定位和拾音效果。
另外一种就是以科胜讯为代表的路线,该路线更加依赖语音增强算法,而对麦克风阵列数量和阵列拓扑结构依赖较小,通过通过自适应降噪、降低混响、语音分离等技术,从而靠少量麦克风获得良好的拾音效果。
有趣的是,刚刚在8月24日发布的出门问问的智能音箱采用的就是科胜讯的2麦克风阵列,从其测试结果来看,远场拾音唤醒能力并不输于竞品。
(黄色方框为Google Home 2麦线性阵列)
关于阵列麦克风数目的选择,思必驰副总裁雷雄国则从产品层面谈到:首先从性能上考虑,思必驰从单麦、6麦、8麦、12麦都有尝试,思必驰最终选择6麦作为主要的阵列方案,是成本和性能的一个综合考虑。6麦以上尽管性能也会提升,但提升的效果和成本不成正比,但6麦一下数目的减少,成本会降低,性能也会相对降低。
其次,产品形态会影响阵列的选择,比如电视上的Soundbar等设备是长条形,就适合线性阵列;而Echo、叮咚是椭圆,它就可以选择环形阵列。
此外,麦克风数目的选择还和产品定位有关。定位高端产品,对体验有更高要求,则可以选择6麦阵列,而中低端的产品可选择2麦或4麦。
六、麦克风阵列在远场交互中存在的问题
尽管智能音箱经过一段时间的打磨,在拾音、唤醒、识别方面都能够欧达到一个不错的效果,但在远场交互中麦克风阵列仍存在一些亟待解决的问题。
第一,误唤醒是一个问题。雷雄国也谈到,表面看这个是唤醒的问题,但实际跟阵列有较强的关系,唤醒拿到的是阵列拾音的信号,阵列对信号噪声处理效果的好坏直接影响到误唤醒。这个问题也可以从产品的思路进行解决,如唤醒之后只是亮灯而不“说话”,这样会好很多。
第二,声源定位需要提升。在声学环境中,尤其是在反射较强、回声较强、噪音环境下,声源定位需要较大的提升空间。
第三,动态环境中对用户位置的跟踪也需要提升。在家庭场景中, 人会处于一种移动的状态,唤醒和指令可能不在同一个方位,在下一次人机交互中会重点处理刚刚那个方向的信号,如果房间存在多个音源,就可能无法执行指令。
第四,麦克风阵列无法同时进行多人声的识别和处理,当下的波束形成和噪声抑制,会使阵列在同一时间处理同一个方向的声源,从而抑制其他声源,这就意味着当下的技术路线下,机器无法同时与多人进行交互。
结语:麦克风阵列赋予智能硬件“耳朵”
提起未来,我们会幻想无处不在的智能,虚拟助手帮助我们做任何想做的事情。而机器具备智能的第一步应该是听懂人类的心声,那么它首先应该具备的就是一双“耳朵”。
而在人工智能的当下,麦克风阵列的作用就是赋予智能硬件以“耳朵”,让它更好的听到人类的声音,然后将声音传输到云端的智能“大脑”去理解,去调动自身的“技能”,满足人类的需求。
但这双“耳朵”在各种场景中是否灵敏好用,能否“耳听八方”,还需要底层声学技术的进一步研究。
(来源:智东西)&&&&1983年,苹果推出了首款采用图形界面操作系统的个人电脑,同时面世的还有首款鼠标———Lisa&Mouse,至此用户不需要输入命令行来操作电脑。尽管鼠标的专利属于施乐公司,但苹果鼠标的出现大大加速了PC进入家庭的进程,IEEE协会把鼠标的发明列为计算机诞生50年来最重大的事件之一。在未来的几十年里,鼠标和键盘组成了人与计算机交互的基本形态。Lisa&Mouse(图片引自technews)&&&&的出现延续了计算机的交互形态,实体键盘在功能机时代似乎并没有什么不妥,即便是智能机时代,Android在2006年时的原始设计也仅限定于有实体键盘的设备。不过在2007年,乔布斯用双指在屏幕上缩小放大,让我们彻底意识到,触屏滑动才是用户与移动终端最佳的交互方式。至此,手机开启了大屏时代,直到十年后的全面屏也沿用了这种人机交互基础。乔布斯手持初代(图片引自微博)&&&&以智慧家庭为代表的IoT如今崭露头角,时间回到两年前,几乎所有人都认为,所有的智能家居产品都应该围绕手机为中心搭建。厂商也在不遗余力的赋予手机更多场景,用手机代替传统形态的遥控器,用手机开窗帘、开关灯、开关空调,甚至成为汽车的备用钥匙。&&&&毫无疑问未来智能家居就应该是这样子,直到亚马逊智能音响Echo的诞生。&&&&这款产品最大的亮点是将智能语音交互技术植入到传统音箱中,从而赋予了音箱人工智能的属性。Echo的诞生正值Siri的低潮期,没有人想过Siri独立于手机会是一种什么样的存在,但当Echo从播放你喜欢的音乐到帮助你打车时,场景一下子被打开。亚马逊Echo智能音箱&&&&语音才是智能家居最好的打开方式,而人工智能的方兴未艾更是给了智能音箱有力的一把助攻。场景轮转带来了的另一个改变就是交互方式的改变,智能客厅在脱离了可视需求之后,隔空非注视操作成为一种必要,在脑力控制实现之前,语音作为交互语言最合适不过。&&&&&&从计算机到手机再到智能家居,每一次场景的轮换我们都在尝试套经验,将键盘放到手机上、将手机强行塞入智能家居的场景中,历史经验告诉我们,优秀的人机交互才是智能革命加速的催化剂。&&&&我们不禁要问,人机交互的演进路线有迹可循吗?回看人机交互的三次跳跃,背后无不遵循“成本”与“效率”两条亘古不变的法则。同时也离不开内核、交互实现的基本原则。&&&&图形界面和鼠标降低了准入门槛,除了让原有技术人员提升效率之外,也让大量普通用户进行计算机领域;触摸屏技术和手势操作引爆了智能手机形态的加速,同时也挖掘出大量用户群体;人工智能和智能音箱更是天作之合,智能家居生态剔除了手机形态之后,更是解放双手,如今这个领域远未能充分挖掘,亚马逊、Google、苹果、阿里巴巴、百度的入局则让其前景无可限量。&&&&&历史车轮滚滚向前,历史却也总是那么相似,虽然我们没有办法预测智能家居之后将会迎来哪个风口,但人机交互坚持“效率”与“成本”的场景化演进仍将是颠扑不破的真理,记住这些我们的进化或许能少走些弯路。本文属于原创文章,如若转载,请注明来源:http://mobile.zol.com.cn/666/6666041.html
主屏尺寸 4G网络
投诉欺诈商家:
天津重庆哈尔滨沈阳长春石家庄呼和浩特西安太原兰州乌鲁木齐成都昆明贵阳长沙武汉郑州济南青岛烟台合肥南京杭州东莞南宁南昌福州厦门深圳温州佛山宁波泉州惠州银川
10暂无报价
摄影手机硬件笔电平板
最新科技资讯下载ZOL APP智能音箱们,亚马逊Echo的成功再难复制了_凤凰科技
智能音箱们,亚马逊Echo的成功再难复制了
用微信扫描二维码分享至好友和朋友圈
原标题:智能音箱们,亚马逊Echo的成功再难复制了 有一种说法,2018年,智能音箱一准爆发。的确,
原标题:智能音箱们,亚马逊Echo的成功再难复制了
有一种说法,2018年,智能音箱一准爆发。的确,在2017年,BAT轮番推出智能音箱,Rokid、出门问问等创业公司也趁势布局,国内智能音箱的出货量也从十几万上升到百万级,资金高速涌入,中国“百箱大战”将正式拉开序幕。
尽管,整体看好智能音箱未来市场,甚至有预测称2018年全球出货量将达到5630万台;但也有相对保守派认为,2018年智能音箱行业并不会爆发,主要依据智能音箱的语音交互能力较弱、内容服务生态不足、跨场景跨任务对话能力较差等因素。
思必驰的CMO龙梦竹,就持后一种观点。思必驰是国内为数不多拥有自主知识产权中英文综合语音技术的公司,其客户包括阿里、腾讯、小米、海尔、联想等,对于语音识别技术的现状,思必驰是具备发言权的。
眼下,智能音箱市场有点冰火两重天的意味。在不久前刚过去的2018CES(消费电子展)上,智能音箱颇受瞩目,被视为家庭场景的最佳智能入口,可国内,虽然BAT、小米等巨头纷纷入局,但出货量并不可观,这让智能音箱在国内的处境有了几丝尴尬。
到底智能音箱是否是伪需求,语音交互是否符合中国的国情?
的确,基于家庭场景的智能生活正在燃爆下一个消费级市场,至于这个场景是不是由智能音箱来带动,却是个未知数。
由此,虎嗅“大咖私房话”邀请到思必驰CMO龙梦竹与虎嗅会员进行了一场2小时的圆桌对谈,分享了她对当前智能音箱发展、机遇的理解,剖析了未来智能音箱发展趋势以及在声纹识别上的技术突破与当下瓶颈。我们将现场录音整理出来,复现了这场对话,干货满满。
想了解更详细的案例分享、全部图文,以及深度问答,欢迎加入解锁分享。
Echo成为爆款的背后,反映的是国内音箱市场崛起面临的问题
首先一点,无论是百度Raven H,还是亚马逊Echo,在一定程度上都是为了展现背后的对话定制平台。在这样的战略目标下,他们做这样的硬件根本没有考虑盈利。
至于说Echo,Echo是集亚马逊生态与资源优势为一体的集大成者,其成功并非偶然,成功的因素也未必能为国内音箱市场崛起带来普适性的借鉴,但其快速的发展必然会推动语音技术应用落地。
第一,音质是选购音箱的首要条件,包括很多媒体都会做相关的评测,首先就是从音质开始,低音、高音、杜比音效等等。
第二,性价比是用户购买的关键因素,Echo在正式上市前,硬件已经迭代了很多版本,成本投入很大,是没太多收益的,只能是量产之后薄利多销,而对终端消费者来讲,需要的只是高性价比。比如去年有一款“折衣服机器人”,不管多乱的衣服,在十几秒种时间都能迅速叠放整齐,但售价高达十万块,几乎无人购买,所以,在价格与技术投入之间去掌握好平衡点才是关键所在。
第三,销售渠道;Echo依靠的渠道是整个亚马逊的生态服务,亚马逊把AWS云服务、Kindle跟Echo进行整合,铺设了很广的销售渠道。
第四,内容服务;亚马逊将音频服务,包括Kindle、有声读物,全部融入到Echo内容服务上,内容资源得到充分积累。
第五,语音交互;Echo在技术上最显著的代表性意义,则是把语音的远场交互迅速落地,率先将远场麦克风阵列集成在产品里,无论声源定位、远场唤醒、语音交互,都带给用户极其新鲜的产品体验。
但Echo在中国的销量还不理想,当然大部分原因是Echo目前没有支持中文,以及在整个生态和内容服务上没有完全打通,这也给中国的音箱发展创造了非常好的条件。
眼前中国智能音箱的瓶颈在于:音箱们的智能交互体验,跟语音交互技术、后端服务和生态合作都是相关的,而这几点也恰恰是国内音箱的劣势。
以语音技术为例,当技术落地应用,语音其实只是交互的手段,并不是产品功能,效果的优劣主要是由是否最终能满足用户需求来决定的,简单说,好不好用是由语音技术,内容打通能力等综合决定的。
比如有些人买了某音箱,觉得还是不好用,就会问是不是语音技术有问题?语音技术什么时候能够成熟?比如,当用户对着音箱说“我要听赵雷的《成都》”而产品反馈“对不起找不到您要的歌曲”,消费者下意识会认为是语音识别不好,搜不到歌曲,但这背后很有可能是音乐内容提供商没有这首歌的版权;或者产品本身某个硬件模块没有选得特别好,比如芯片选择不好可能会延长语音识别的时间。
对用户来讲,语音是用户跟产品发生关系最直接的感受,于是所有的锅,最后都是由语音技术来背。
国内智能音箱整体上还未到爆发节点
很多人都在问2018年音箱能火起来吗?
从语音交互、内容服务,包括用户的接受能力,其实还达不到音箱真正爆发的节点,音箱带动的更多的是大众对智能家居的认知,让大家看到物联网的发展及智能家居的未来,而真正能火起来的可能不一定是音箱,有可能是智能门锁,智能路由等。
2018年应该会有中国本土的创业企业研发的智能门锁大规模铺向C端市场;再比如电视,电视在2018年、2019年会是个分水岭,之后所有的电视应该全部都有语音功能。
但音箱目前还不具备成为刚需的条件,那为什么音箱会成为目前商家探路市场的首选?这是因为音箱本身是一个天然的、最好的音频载体,第二,音箱比较轻量化,进入门槛相对较亲民。
也许明年,市场上会出现更多类似于智能音箱的变体,比如音箱大部分是圆柱体,是为了收音和识音,还有音频播放。但如果把音箱中部挖空,把它拔高,做成花瓶,那是不是就可以不用叫智能音箱了?
所以未来真正会爆发的是“智能助理终端”,真正能够解决用户交互需求,家居的控制等等,而不在乎是什么形态。
另外,中国作为一个农业大国,对爆款产品的定义一定不是说产品体验多好、价格多低,而在于卖的多好。要卖得好,渠道是很重要的因素。只有打入三四线市场,比如现在的手机,苹果、华为炒的较热,但OPPO、vivo,的市场占有率却是非常大的,它们走的就是打入中国广大的三四线市场,因为这一块才是最有消费潜力的,而音箱如果在一两年内想打入三四线市场,可能没有那么容易。
我们再说回今天的主题,智能音箱。
智能音箱只是外在的终端形态,我们要评价智能音箱的好坏,就需要关注其背后的综合能力,首当其冲的是智能语音技术。
从互联网时代到移动互联网,再到物联网时代,设备数量呈现指数级的增长,信息获取也从文本信息处理发展到对话搜索。
随着对语音技术、新场景的挖掘,物联网市场迅速发展,智能硬件设备数量将达到100亿量级,文本信息交互变得越来越弱,而语音和对话交互成为发展的需要,信息获取也从终端为中心转移到以用户和场景为中心,这是整个时代的变革。
比如,在2014年的时候,以智能手环为代表的可穿戴市场开始兴起,短时间内国内出现了几千家做智能手环的企业,但又迅速的销声匿迹。再到2016年基本上很少看到手环或者可穿戴产品的存在,而今年随着整个AI技术,尤其是语音技术,还有新场景的挖掘,穿戴设备市场又将会慢慢地恢复起来。
声纹识别虽是趋势,但大规模商用还需时日
最近关于声纹识别的讨论很多,那我也来讲一下这个事情。(虎嗅注:声纹识别又称说话人识别,是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份)。
我认为声纹识别大规模商用的时机还远远不到。我说一下我的理由——
目前,声纹识别目前分为两种形式,一种叫说话人辨认-SI(Speaker Identification)
,属于一对多的关系,就是在一群说话人中,通过去识别其中一个人音频和信号去确认这个人是谁,应用的场景包括刑侦破案、罪犯跟踪等;另一种叫说话人确认-SV(Speaker Verification),属于一对一的关系,通过采集的数据来确认说话人,应用场景包括证券交易、支付购买、声纹锁等,民用场景应用性更强。
但目前在做声纹识别方案的时候,通常是将声纹作为一种辅助认证,把声纹和人脸进行结合,双重验证,或者把声纹跟传统的密码支付来进行绑定。但对于声纹识别大规模的商业应用还需要时日,做好产品的交互体验也是关键所在。
在声纹识别里边最大的难点,首先语言是一种时变的一维信号,语音声音信号本身的问题,在于说话人语速、情绪、感官,甚至包括采集音频的设备、变声器的应用都会对声音有一定影响,让声音的可信度有存疑;从算法上来说,包括建模、运算的能力,尤其是做声纹数据库的时候,去做什么样的用户声纹验证,有关年龄、职业分布、发音特质都需要做建模,并且建立数据库对样本量的获取都是难点。
尤其是智能家居大环境下,将会面临以下几个方向的挑战:
首先是噪音的干扰,也就是鲁棒识别(鲁棒即经历了各种信号处理或者各种攻击后,依然具有一定的保真度),未来将会从算法降噪和硬件降噪来综合提升体验;
第二是家居环境下的远场交互,目前主要是基于理想的家居环境中3~5米的距离来做核心优化,之后会针对于酒店,甚至银行大厅去做点对点的降噪尝试;
第三是回声消除、在设备播放声音时的唤醒、打断和交互。最后是提升交互体验的其他必须技术点,包括声源定位、声纹识别等。
用微信扫描二维码分享至好友和朋友圈
凤凰网科技官方微信
播放数:160728
播放数:138775
播放数:485835
播放数:5808920

我要回帖

更多关于 亚马逊智能音箱笑声 的文章

 

随机推荐