远场语音交互技术和麦克风阵列声源定位的区别

从亚马逊Echo到谷歌Home:麦克风阵列有哪些讲究_创事记_新浪科技_新浪网
从亚马逊Echo到谷歌Home:麦克风阵列有哪些讲究
  欢迎关注“创事记”的微信订阅号:sinachuangshiji  文/清风  [新智元导读]亚马逊和谷歌等大公司先后推出智能家居中枢产品,并且都选择了智能音响作为切入点,推进人工智能落地的战略。这方面已经有很多文章涉及。 这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。  在刚刚过去的Google秋季发布会上,谷歌正式推出了Google Home智能音箱。Google Home将自己的两大技术Google Now(智能语音系统)与最新版本的Google Assistant(智能服务平台)结合打造出的智能音箱。  Google Home作为谷歌最为看重的智能中控出生,并采用了双麦克风的硬件配置, 售价定为129美元。  众所周知,2014年亚马逊推出了第一款智能音箱Amazon Echo,从推出起至今已热销超过400万台,俨然成为了最新一代的科技宠儿。据悉,苹果也即将推出 Siri 智能音箱。各大巨头和创业企业,纷纷看中智能家居中控这块“肥肉”,由此也拉开了人工智能领域新一轮战役的序幕。  Google Home和Amazon Echo都代表了行业巨头通过智能WiFi音箱为入口,推进人工智能落地的战略。这方面已经有很多文章涉及。 这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。  双麦克 vs 多麦克阵列 技术上各有高下  谈及Google Home的硬件配置,不难发现它和Amazon Echo相比有一个最大的差异,那就是少用了5个麦克风。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home只采用了2麦克风阵列。  Amazon Echo采用6+1麦克风阵列  麦克风阵列是什么呢?就是放置在空间中不同位置的多个麦克风。根据声波传导理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,因此在语音处理领域具有非常好前景,可以用在非常广的应用领域。  根据麦克风数量不同,麦克风阵列具有不同的特点。行业采用的以双麦克居多,比如几乎所有中高端手机都采用双麦克降噪技术来提升通话效果。四麦克、六麦克、八麦克线性阵列和环形阵列在行业内也有应用,但还远远达不到双麦克应用的数量级。  首先,双麦克和多麦克阵列的一个重要区别,是成本的不同。显然,双麦克的成本相对多麦克低得多,除了可以直观观察到的麦克风数量不同之外,为了支持多麦克通道而必须具备的硬件电路、为了处理更多的信号数据而额外需要的计算能力,都使得成本体现较大的差异。所以我们看到两者的售价体现的极为明显,Google Home为129美元,AmazonEcho售价为179.99美元,差价约50美元。值得注意的是,这两家的硬件产品的战略没有多大区别,都是硬件基本不赚钱。  其次,双麦克和多麦克的技术路线区别较大。双麦克和多麦克采用的技术路线虽然有类似之处,但算法体系存在较大区别。显然,麦克风越多越容易实现更好的降噪和语音增强效果,所以为了达到同样或者类似的效果,双麦克阵列技术相对多麦克阵列的技术挑战性更高。但因为成本问题,采用双麦克阵列的技术挑战虽然大,但从应用普及的角度上却是大势所趋。  另外,从效果上看,如果技术优化足够好,在3~5米的家庭环境中,双麦克阵列虽然可以和多麦克阵列做到几乎一样的降噪和语音增强效果。但双麦克有个缺点,就是声源定位只能定位180°内的范围,而环形麦克风阵列(不管是4Mic、6Mic还是8Mic)都可以做到360°全角度范围内的定位。所以Google Home只能有四个LED灯来显示状态,而Amazon Echo可以用LED灯显示说话人的方向。当然,这个差别仅对具有声源定位需求的产品存在影响,而且对一些本来就需要靠墙摆放的设备如空调、电视机等是没有任何问题的。而对于类似机器人等摆放在室内中央的产品,如果希望它能定位说话人位置,那就只能采用多麦克方案了。  最后,从产品的角度,双麦克方案简单更易落地。多麦克阵列最大的问题是,无论线性阵列还是环形阵列,其对产品的外观、结构设计都有极为严苛的要求,因为麦克风是要求必须在空间上均匀分布的。而双麦克显然就不必考虑这些因素。  基于双麦克阵列的产品生态构建更具优势  麦克风阵列作为实现智能语音的必备硬件,可以说是人工智能感知的硬件基础。因此,麦克风阵列的布局,将深深影响人工智能产品的生态布局。  首先,众所周知的是,谷歌是以生态见长的公司。比如,Android构建了整个移动互联网的生态基础。在谷歌从移动互联网向AI转型的时候,提出了“AI First”的口号,并推出了开源深度学习系统TensorFlow,这个系统被认为是人工智能领域的Android。  那么,谷歌为什么在如此重视AI战略的时候,推出这款Google Home的智能家居产品,并且采用双麦克的方案呢?相信对于谷歌这样的公司,成本和技术绝不会是阻碍他们采用更好技术的原因。  据业内人士分析,最关键的就是上面提到的广泛的适用性和落地的便捷性,可能让谷歌最后选择了双麦克方案。谷歌布局整个智能硬件产业链,而非只打造一款爆款产品。现在做Google Home智能音响,以后也可能做电视、汽车等等,所以在软硬件选择上都会考虑更通用、更长远的方案。多麦克阵列对外观和结构的严苛要求,使得该方案的应用场景极为有限,不具备广泛的适用性,以Google的远大抱负,显然会选择适应性更强的双麦克方案。  目前,谷歌明确表示会部分开放对接的子系统,包括灯控、温控器、开关三大类,媒体分析,谷歌随后还会提供针对家庭第三方设备的免费软件开发包,以方便鼓励第三方开发商增加新的服务功能,提升Google Home的兼容性。以对抗出货量400万台的Echo营造的生态体系,因为Echo对接的名单已经是很长一大串,其中就包括了Nest。  双麦克阵列在智能家居领域落地最为广泛  虽然多麦克阵列方案在业内炒的如火如荼,但在落地过程中,双麦克方案却成为家电产业中出货量最大的方案。据了解,目前国内主流家电厂商应用语音交互技术的产品中,包括乐视电视、海信电视、格力空调、美的空调、华帝烟机等,出货量最大的产品搭载的都是双麦克方案。  另外,国内的主流人工智能企业也都在双麦克方案上重点布局。据悉,仅云知声一家企业,目前搭载双麦克的芯片模组每月的出货量就超过几万片,而科大讯飞目前也在紧锣密鼓研发双麦克方案,争夺智能家居市场。  据家电行业资深技术人士介绍,从2012年开始行业内就开始寻求语音交互技术应用在家电产品中,并明确要求:第一、用户直接通过语音方式控制产品,且不受产品自身噪声影响;第二、一定距离的远场语音交互得以实现;第三、方案成熟,成本控制。远场语音交互是关键中的关键。当时市场上普遍解决方案都是八个麦克风收音,虽然语音识别准度得以提高;但实施成本、结构难度、生产安装等问题却接踵而来。但像空调、电视这类家电产品,它永远都是贴墙放,八个麦克风在实际应用上是多余的。双麦克技术在任何产品上均可自然适配。  该人士称,双麦克风阵列的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。相信在未来一段时间内,双麦克都将成为智能家居产品中的主流配置。  不同应用场景下自由配置  虽然双麦克有性价比和结构简单的种种优势,但并不能完全覆盖所有场景下的产品需求。  比如,在机器人领域里,对声源定位的要求比较高,所以一般都会使用环形多麦克方案。这两年国内比较火的Rokid机器人就采用了8麦克的阵列。  未来人工智能领域还需要更多适配的硬件,以满足不同智能产品的需求。因此,国内像科大讯飞、云知声等行业领军企业都相继推出了6+1麦克、4麦克阵列方案,满足智能音响、机器人领域的产品需求。  从长远来看,麦克风阵列解决的只是感知这一块,更快的落地(双麦克更有优势) 、更多种的形态(双麦克和多麦克阵列可配置),是建设人工智能生态的第一步。本文来自公众号:新智元(AI_era)
(声明:本文仅代表作者观点,不代表新浪网立场。)
文章关键词:
智能 中国的资讯社交平台,重点关注人工智能、机器人、大数据、虚拟现实、量子计算、智能医疗等前沿领域发展,领航中国新智能时代。
高考恢复40周年,机器人已经开始挑战高考。
基于神经翻译系统训练使用的数据集不像基于短语的系统使用的那样…
量子计算长期以来都被认为是20年以后才会实现的技术。但是,2017…不知道麦克风阵列是何方神圣?这篇文章告诉你!
我的图书馆
不知道麦克风阵列是何方神圣?这篇文章告诉你!
  上个世纪七八十年代,麦克风阵列技术已经开始应用到语音技术的研究中,2000年左右,业界开始慢慢深入,进行基于麦克风阵列相关算法的专题研究。到了物联网时代,市场的刺激和产品的需求,极大的推动了相关的技术进展,尤其是2014年亚马逊echo的正式发布,这一领先性的语音技术迅速进入到民用级产品的应用范畴中。
  一般来说,人耳能听到的声音频率在20~20000赫兹之间,而很有意思的是,听觉其实是一种预警机制,除了听到声音,更重要的是具备分辨声源方向的能力,屏蔽主赫兹以外的声音更是为了对人体起到一定的保护作用,为有效交流提供保证(否则整个世界就真的太吵了)。那么,相似地,麦克风阵列,其实就相当于机器之耳,不仅只是为了采集音频,识别信号,传输信息,还为了更好的声源定位和噪音降解,杂音屏蔽等。
  思必驰于2015年年底推出了环形6+1远场麦克风阵列,也是目前国内唯一一款6+1环麦,亚马逊echo核心功能的“中国版”技术。目前被广泛运用在机器人和音箱等智能家居产品中。那么这款环麦具体有什么样的功能和优势?
  麦克风阵列能解决的问题
  【语音增强】解决噪声环境下的识别
  噪声环境是影响语音识别的一个重要因素,普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型。不同步的语音相互叠加产生音素的交叠掩蔽效应,严重影响语音识别的效果。解决该问题需要从抑制噪声和语音增强两方面入手。思必驰环形6+1远场麦克风阵列利用拾音波束成形,采用独特算法,有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,有效地增强说话人语音。
  【声源定位】辅助多功能联动
  对麦克风拾音来讲,声源的位置的不确定性为语音交互带来了阻碍。思必驰环形6+1远场麦克风阵列实现360°环形拾音,多麦克定向,准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在±10°以内,成为智能语音交互中捕捉说话人语音的重要方式。声源定位功能不限制说话人运动,不需要移位操作,这增强了产品设计的灵活性和功能的多样性,可有效地实现对产品的多功能辅助作用。
  【远场交互】打破远距离沟通障碍
  语音会随着传播距离衰减,传播距离越远,背景噪声和干扰所占比例就越大,同时混响也越严重,这对语音的远场识别及交互提出了较高要求。思必驰环形6+1远场麦克风阵列在前端充分利用其空域滤波特性,抑制拾音波束外的回声、混响等噪声,进行语音增强处理,辅之以语音识别引擎的二次处理,实现优质的远场识别交互。思必驰已实现了国内领先的5米远场交互,5米识别率达92%,3米识别率达94%,1米识别率达96%以上,远场识别媲美近讲。
  【打断纠错】针对错误识别的解决办法
  语音系统的认知能力是智能语音不容回避的问题,用户需求决定了要识别错误、纠正打断,认知型语音技术成为语音交互的必然趋势。思必驰环形6+1远场麦克风阵列融入了自适应、理解纠错、智能反馈等认知技术,重新提取大数据因素,并进行二次计算,实现智能纠正打断,能够适应更多的应用环境,具有进化调整功能,从而在人机交互的过程中,使机器更“听话”。
  【多轮对话】应对用户的复杂需求指令
  复杂任务的处理要求人机能够进行多轮对话,要求机器能够基于上下文的任务关系,进行任务切换和指代消减。就此,思必驰推出了“对话管理” 技术,并成功应用于环形6+1远场麦克风阵列。基于对话逻辑,允许人机进行多轮语音互动,让机器理解用户的深层意图并提供反馈。而机器可以通过深度学习,可以根据上下文语境准确追踪用户意图,并随着数据的积累而越发灵活精准。深谙语音交互之道的多轮对话,使人机交互更自然流畅。
  【后端服务】实际场景下的功能需求
  语音技术的应用场景、功能设计千差万别,保证用户体验的首要标准是满足用户的功能需求。当前智能硬件更多的是在生活场景中的应用,需要提供周边、资讯、音乐、订餐、订票、导航等生活服务,自然语言仅是人机交互的入口,而后端的内容和服务才是真正的交互对象。目前思必驰“环形6+1远场麦克风阵列”解决方案整合了高德地图、酷我音乐、虾米音乐、喜马拉雅电台、考拉电台、大众点评等生活服务方面的诸多关键资源,致力将智能语音服务整合成一体化产品,打造体验闭环,形成完整的生态链。
  思必驰麦克风阵列的应用领域
  当前思必驰“环形6+1远场麦克风阵列”解决方案主要应用于以下几个领域:
  1. 机器人
  思必驰针对智能机器人业务提供“环形6+1远场麦克风阵列”软硬一体化解决方案,使机器人反应灵敏,能说会道,闻声识路。在一般家居环境下,能够随时随地捕捉用户声音倩影,自由对话。你无聊,我陪你闲聊;你搜索,我提供资源;你呼唤我,我闻声而来;我做错了,由你纠正打断。思必驰智能语音实现更人性化的人机交互。
  2. WiFi音箱
  “环形6+1远场麦克风阵列”使音箱不仅只属于音乐,也属于生活。想听歌,随时语音操控;想安静,任你打断关闭;生活周边,吃喝玩乐,你问我答,贴心的乐活专家;行程安排,路线订票,你下令,我执行,专业的资讯助手…..小小音箱不再仅仅是音乐播放器,思必驰交互语音让它成为了生活工作的小能手。
  3. 智能中控系统
  传统家居中控采用按键或触控的方式,但思必驰“环形6+1远场麦克风阵列”使智能中控系统更便捷精准。比如支持智能语音系统的路由器,可通过智能语音操控帮助用户管理家中的各个联网设备。联网设备的分散性及位置的不确定性强调了拾音角度和拾音范围的随意性,思必驰“环形6+1远场麦克风阵列”可有效解决这一问题,使中控更加精准有效。
  4. 智能电视(“4麦线性麦克风阵列”解决方案)
  就电视类的家居产品而言,“4麦线性麦克风阵列”解决方案更为适宜。此类家居具有位置相对固定的特点,环形360°麦克风解决方案稍显不合理,而线性180°麦克风解决方案完全可满足用户需求,性价比更高。“4麦线性麦克风阵列”解决方案亦可实现5米远场识别,识别率达92%以上,同时为用户提供云端丰富的第三方内容。在电视行业向智能家居转型的过程中,智能语音大亮鲜招,思必驰“4麦线性麦克风阵列”解决方案实现更快的语音控制,更自由的语音搜索,更高效的语音交互及更丰富的内容服务,扔掉遥控器,抛弃终端APP,一语控制,随心所欲,家居操控更便捷。
  Echo与环形6+1麦克风阵列
  谈到环形麦克风技术的市场应用,亚马逊Echo音箱无疑成为国际市场典范,以消费级电子产品来衡量,Echo表现出色,能迅速360°全方位识别语音并做出反应,准确进行声源定位,结合丰富的后端资源,支持多样功能。
  该产品技术理念与思必驰“环形6+1远场麦克风阵列”解决方案可谓是不谋而合,极为相近但却又不尽相同。Echo是成熟的市场产品,主要采用英文进行语音交互;思必驰“环形6+1远场麦克风阵列”是智能语音解决方案,专注国内中文市场。前者对后者的市场应用有较大的借鉴意义,思必驰环麦技术专注智能硬件领域,不仅仅局限于音箱,还包括机器人、家居中控等等,环麦技术的应用领域将进一步拓宽。
  打造中国版的Echo
  如今,人工智能技术日新月异,智能产品应用领域飞速拓展,优质智能家居产品终将突破Echo类的音箱型产品,电视、机器人、个人网关等高频使用的产品形态均具备较大市场潜力。思必驰“环形6+1远场麦克风阵列”解决方案将先进的语音交互技术与丰富的后端资源相结合,突破音箱类产品形态,为更多优秀的智能硬件产品提供语音操作及交互服务。在可以预见的未来,智能语音将作为有效媒介传递价值,思必驰将借助“环形6+1远场麦克风阵列”解决方案,致力于打造中国版Echo。
馆藏&12847
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢智能语音助手背后,哈曼瞄准了麦克风阵列的生意_网易科技
智能语音助手背后,哈曼瞄准了麦克风阵列的生意
用微信扫码二维码
分享至好友和朋友圈
凡是涉及到语音交互的环节,都离不开对声音的采集和提取,具体到智能音箱中,这是一种被称为“麦克风阵列”的技术。
(原标题:智能语音助手背后,哈曼瞄准了麦克风阵列的生意)
智能语音助手不是什么新鲜的事物,但它的载体智能音箱成为智能家居的爆品不过是近两年的事情,这得益于两个方面,首先是人工智能的发展诞生了实际的应用场景,其次则是声学识别、语音识别等技术的逐渐成熟。无论是音箱还是其他消费电子产品,凡是涉及到语音交互的环节,都离不开对声音的采集和提取,具体到智能音箱中,这是一种被称为“麦克风阵列”的技术,同时几乎也是Amazon Echo和Google Home此类产品唯一涉及到硬件层面的创新。刚刚过去的CES ASIA期间,哈曼发布了全新的远程语音识别解决方案SONIQUE?,它将提供有别于传统手动输入的语音输入技术,瞄准的正是消费类语音电子产品对于麦克风阵列的需求。从近场识别到远场识别几年前,语音交互最典型的代表就是以苹果Siri为代表的智能手机,在这个相对简单且识别距离较近的场景,麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是一旦麦克风距离较远,收音环境就会受到大量噪声、混音甚至反射带来的干扰,导致对声音信号采集和提取的准确率大幅下降,从而影响语音识别的准确率。“iPhone配备了号称目前世上最好的麦克风,但是如果开扬声器从2米外去打电话,基本上除了噪声什么也听不见”,哈曼嵌入式音响事业部负责人刘苍松认为,“当用户逐渐从手机开始切换到类似Echo等的时候,实际上麦克风的工作环境也变了。”消费级麦克风阵列的兴起伴随着智能语音助手的大范围应用,最主要的变化其实是用户场景的迁移,这也推动了麦克风阵列领域从近场识别到远场识别的技术大跃进,一旦远场语音交互成为主流,那将和触屏的方式产生真正的差异化。哈曼嵌入式音响事业部副总裁兼总经理---刘苍松先生哈曼嵌入式音响事业部负责人刘苍松向钛媒体记者介绍,“语音识别从近场识别到远场识别跨越的难度非常大,比如从识别声音的距离来看,从2米到3米距离提升50%,但是成本可能增加了两倍,越往上越成几何级增长,是不成比例的,就像发烧音箱一样,10万的音响可能只比1万的音响音质提升了一点点。”哈曼的多种解决方案麦克风阵列有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,所以它被越来越广泛地用到智能音箱乃至其他需要语音交互的场景下。不过从技术角度看,麦克风数量不同导致它所具备的特征有所差异,也就诞生了多种应用,哈曼嵌入式音响事业部负责人刘苍松表示,根据特定的用户需求,SONIQUE? 可提供三种不同的解决方案。第一种为双麦语音解决方案。主要面向以家用电子为主的消费类电子应用,可以灵活地应用于消费类音响,电视机顶盒以及网络路由器等设备,双麦配置可支持最远4米的高清远距离拾音需求。第二种配置为四麦语音解决方案。主要面向高端家用电子产品、企业级应用以及机器人,可支持最远6米的高清远距离拾音需求。第三种为七麦语音解决方案。主要面向对性能要求高的企业级应用和机器人。通过搭配系列音效算法,七麦语音解决方案可支持最远8米的高清远距离拾音需求。双麦、多麦,哪个更主流谈及智能音箱,不得不提Amazon Echo和 Google Home 这两款产品,如果单纯从硬件层面来看,二者好像都没有什么可炫耀的资本,唯一不同是 Amazon Echo 采用的是6+1环形麦克风阵列,而Google Home 只采用了2个麦克风阵列。Harman&Kardon Invoke在前不久的微软Build大会上,微软发布了与哈曼合作的智能音箱 Harman Kardon Invoke,作为对标亚马逊和谷歌的产品,Harman Kardon Invoke 同样可以实现播放音乐、管理日历和活动、设置提醒、检查流量等功能,区别在于 Harman Kardon Invoke 采用的是哈曼 SONIQUE? 七麦的解决方案。双麦克和多麦克阵列的一个主要区别,是成本不同。双麦克风阵列的 Google Home 售价129美元,采用的是6+1环形麦克风阵列 Amazon Echo售价为179.99美元,两者相差了50美金。但同时哈曼嵌入式音响事业部负责人刘苍松也解释道,“其实成本并不是单纯由麦克风的数量决定,实际每个麦克风就一两块人民币,多麦克风阵列的难度在于体系更复杂,需要花费大量时间在材料、工艺、软件上去调教,是软硬件一体化的系统工程。”对于目前的智能语音类产品来说,也不存在哪个更主流的问题,而是更强调应用场景。“双麦克风阵列产品应用的场景相对简单,命令也不复杂,对成本要求低,比如电灯开关、窗帘开关,而类似Echo这样的产品则是对识别的准确性要求高,但在数量上都达不到双麦克的出货量”,刘苍松表示。做人工智能设备的耳朵和嘴巴哈曼主要为汽车市场、大众消费市场以及专业市场设计、生产和提供各类音响与信息娱乐系统解决方案及软件服务。哈曼嵌入式音响事业部隶属于哈曼四大业务群之一的消费类音响,主要为消费类企业用户提供全方位的音响解决方案,为B2B性质的部门。哈曼嵌入式音响事业部负责人刘苍松也表示,“哈曼在麦克风领域有超过60年的历史,几十年前唱片音乐流行的时候,世界上一级的录音室都是哈曼的设备,哈曼现在做智能语音麦克风阵列的技术,是水到渠成自然而然的技术积累而做的一个产品。”对于在这个领域的定位,哈曼也同样十分清晰,刘苍松给钛媒体记者举了一个十分形象的例子,“哈曼的角色就像是人工智能设备的耳朵和嘴巴,当你对智能音箱说‘我饿了’,这个声音会通过麦克风阵列进行降噪并收集,哈曼的解决方案负责收集用户的输入结果,主要是前端声音的采集和反馈时候声音的表达。”哈曼的麦克风阵列担当了智能语音入口的性质,“至于人工智能如何思考,自然语言理解、搜索结果反馈等下一步的服务提供则是由那些互联网公司提供。”刘苍松表示道。
但这个过程中不能忽略的是,语音识别率是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果,为此哈曼进行了非常广泛的合作。截至目前,SONIQUE? 远程语音识别解决方案已经能够支持开源的主流语音引擎集成,包括亚马逊 Alexa 以及微软Cortana,并预计在近期内与更多语音引擎厂商开展合作,列表中的名单包括百度、科大讯飞、苹果 Siri,并且还在持续增加。(本文首发钛媒体,记者/李玉鹏)
本文来源:钛媒体
责任编辑:白鑫_NT4464
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈智能硬件远场语音交互:一文读懂灵云麦克风阵列
引入更为自然的远场语音交互,已成为电视、空调、音箱、机器人等众多智能硬件的发展趋势及广泛需求。捷通华声依托成熟的核心技术,推出灵云麦克风阵列软、硬件产品及针对不同智能硬件的远场语音交互解决方案。
配合灵云麦克风阵列,捷通华声同时在灵云开发者社区提供灵云种子SDK、灵云语音识别SDK、语音合成SDK、语义理解SDK 、声纹识别SDK等全链条的语音交互产品,以及强大的公有云平台服务支持,使得硬件能轻松实现远场精准语音交互。
核心技术 源自清华
作为技术驱动型的企业,捷通华声与清华大学合作,拥有语音唤醒、声源定向、回声消除、语音降噪、远场识别在内的全部灵云麦克风阵列核心技术,且各项核心技术指标均达到业界领先水平。
支持1个或者多个唤醒词,且唤醒词可定制,支持第三方唤醒词。5米唤醒率 & 95%,误唤醒率 & 1次/24小时。
支持2/4/6个麦克风,线性/环形布局,180°/360°声源定向。线性布局阵列定向精度 & ±15°,环形布局阵列定向精度 & ±10°。
支持单声道/立体声双声道回声信号输入,采样率16000Hz,采样位数16bit。
增强目标说话人方向语音,抑制说话人方向以外的声音,消除非人声背景音。
支持持续16k16bit音频输出,或者经过端点检测的非静音音频输出。3米识别率 & 95%,5米识别率 & 92%。
依托“源自清华”的核心技术,捷通华声为客户提供从灵云麦克风阵列SDK软件,到灵云麦克风阵列评估板,以及针对不同智能硬件推出的远场语音交互解决方案。
灵云麦克风阵列SDK
灵云麦克风阵列SDK是捷通华声专门针对智能家电、车载、机器人、音箱等智能终端远场语音交互推出的语音信号处理SDK,可适配多麦克风阵列布局,可以实现各种复杂噪音环境中的远场语音识别体验。
语音识别本质上必须和声学处理融合,语音设备没有好的耳朵显然不行,而灵云麦克风阵列SDK则能让智能硬件的“双耳”更加灵敏,目前,SDK已可在灵云平台开发者社区内下载使用。
灵云远场语音识别麦克风阵列评估板
评估板主要方便用户体验评估灵云麦克风阵列各项功能,加快产品开发进程,日前已经成功上线灵云商城,可直接在线购买。用户拿到灵云远场语音识别麦克风阵列评估板,只需要对安照说明书进行简单的操作,即可体验产品的各项功能。
目前,灵云麦克风阵列评估板主要涉及君正芯片X1000芯片平台和瑞芯微RK3229平台,君正X1000平台支持单麦,2麦,4麦线性,4麦环形等布局形式,瑞芯微RK3229平台支持环形6麦的布局形式,用户可以根据产品的外观设计,结构尺寸,选择合适的麦克风阵列布局形式,采购对应的评估板做体验测试,辅助产品开发。
(灵云麦克风阵列型号分类)
灵云系列语音交互方案
针对不同智能硬件客户,捷通华声分别推出灵云智能电视语、智能空调语音、智能音箱语音交互、机器人语音交互等相对应的解决方案,从而使灵云麦克风阵列技术以及灵云语音交互技术能更好地解决用户需求。
灵云智能电视远场语音交互方案
该方案包括近讲语音遥控器产品、远场语音遥控器产品、灵云种子产品(包含云+端语音识别和语义理解,语音合成功能)、灵云声纹识别产品,以及丰富的第三方接入内容,例如天气,音乐,百科,视频等资源。
其中远场语音遥控器产品为捷通华声独有的远场语音交互解决方案。这个方案中,远场语音遥控器采用环形4麦克风布局方式,可以实现360度声源定位,3到5米距离拾音,有效降低周围环境中的噪声,同时消除电视机播放的声音。具有极低的功耗和极高的性价比,能够在增加产品“新技能”的同时保证成本有效控制。
多年技术积累,灵云麦克风阵列以及语音交互技术已经在乐视、小米等众多电视、空调厂家产品中实现量产,同时应用于新松、棠棣、木爷等几十家服务型机器人中,并在长安众多智能车载产品中得以应用。
围绕远场语音交互,捷通华声通过成熟的灵云麦克阵列技术以,并配合国内领先的额灵云语音交互、声纹识别等技术,努力实现在让每一家智能硬件厂商都能低成本快速拥有“灵动双耳”,并轻松实现语音交互,构建智能硬件语音交互新时代。
灵云平台更多信息
体验灵云客服机器人
诚聘英才,欢迎有志从事人工智能的人士加盟。
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点

我要回帖

更多关于 阵列麦克风tecohoo 的文章

 

随机推荐