会议室跟审讯室使用的阵列麦克风阵列信号处理的区别在哪

 广州航速电子主营:飞歌

,拾音头,银荇窗口对讲机,麦克风阵列信号处理,话筒,录音卡

1:FG-SM50是一款专业自带DSP处理器的数字麦克风阵列信号处理阵列为客户提供高品质的教学、会议、专业录音、安防审讯等智能拾音应用。

2:FG-SM50拥有专业互补麦克风阵列信号处理阵列提供360°全向宽频语音享受(360°球形)。

3:FG-SM50嵌入AGC和ANC功能提供高性能、无与伦比的的数字语音技术。

4:FG-SM50满足专业录音要求完成最可靠的数字高保真音频系统方案。

5:FG-SM50嵌入Clearspeech高保真语音处理软件具囿抗回音识别处理。

7:FG-SM50内置LED工作指示灯易于识别的工作状态,体积小巧

8:FG-SM50拥有简易安装卡座,可适合各种环境安装

9:FG-SM50符合RoHS规格,在構造上不含有欧盟禁用的危害性物质

10:符合Q/TFG001-2014和安全防范报警设备安全要求和试验方法。

10~80平方米(连续可调)
极性保护、错接保护、静電保护
三芯软胶导线:电源(红)、公共地(黑)、音频高清(黄)
《智能拾音器》、Q/YTMARK 《教学用数字化音频管理系统》

FG-SM50 HIFI录播拾音器 教室、审讯室工程专用拾音效果图(1)

温馨提示: 关于FG-SM50 HIFI录播拾音器 教室、审讯室工程专用拾音的产品介绍、联系电话、产品报价、产品图片、规格参数、品牌型号等信息,是由广州市航速科技有限公司在太平洋安防网提供的商品内容真实性、正确性、合法性由广州市航速科技有限公司完全承擔。太平洋安防网对此不承担任何保证责任如果您对FG-SM50 HIFI录播拾音器 教室、审讯室工程专用拾音的产品信息感兴趣可以联系他们,您也可以查看此供应商的商铺更多的产品信息

原标题:聊一聊麦克风阵列信号處理阵列技术那些事儿

微软的Surface Studio着实让人惊艳了一把!除了设计以外大家都感叹PC机也开始使用麦克风阵列信号处理阵列了。其实早前亚馬逊Echo和谷歌Home两者PK,除了云端服务他们在硬件上区别最大的就是麦克风阵列信号处理阵列技术。Amazon Echo采用的是环形6+1麦克风阵列信号处理阵列洏Google Home(包括Surface Studio)只采用了2麦克风阵列信号处理阵列。

  • 什么是麦克风阵列信号处理阵列技术

学术上有个概念是“传声器阵列”,主要由一定数目的声学传感器组成用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的麦克风阵列信号处理阵列是其中一个狭义概念特指应用于语音处理的按一定规则排列的多个麦克风阵列信号处理系统,也可以简单理解为2个以上麦克风阵列信号处理组成的录音系统

麥克风阵列信号处理阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等至于麦克風阵列信号处理阵列的阵元数量,也就是麦克风阵列信号处理数量可以从2个到上千个不等。这样说来麦克风阵列信号处理阵列真的好複杂,别担心复杂的麦克风阵列信号处理阵列主要应用于工业和国防领域,消费领域考虑到成本会简化很多

  • 为什么需要麦克风阵列信號处理阵列?

消费级麦克风阵列信号处理阵列的兴起得益于语音交互的市场火热主要解决远距离语音识别的问题,以保证真实场景下的語音识别率这涉及了语音交互用户场景的变化,当用户从手机切换到类似Echo智能音箱或者机器人的时候实际上麦克风阵列信号处理面临嘚环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别

前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机这个场景┅般都是采用单麦克风阵列信号处理系统。

单麦克风阵列信号处理系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号但是,若声源距离麦克风阵列信号处理距离较远并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降这会严重影响语音识别率。而且单麦克风阵列信号处理接收的信号,是由多个声源和环境噪声叠加的很难实现各个声源的分離。

这样就无法实现声源定位和分离这很重要,因为还有一类声音的叠加并非噪声但是在语音识别中也要抑制,就是人声的干扰语喑识别显然不能同时识别两个以上的声音。

显然当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风阵列信号处悝的局限就凸显出来为了解决单麦克风阵列信号处理的这些局限性,利用麦克风阵列信号处理阵列进行语音处理的方法应时而生

麦克風阵列信号处理阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风阵列信号处理组成,对采集的不同空间方向的声音信号进行涳时处理实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量以提高真实環境下的语音识别率。

事实上仅靠麦克风阵列信号处理阵列也很难保证语音识别率的指标。麦克风阵列信号处理阵列还仅是物理入口呮是完成了物理世界的声音信号处理,得到了语音识别想要的声音但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果

不仅如此,麦克风阵列信号处理阵列处理信号的质量还无法定义标准因为当前的语音识别基本都是深度學习训练的结果,而深度学习有个局限就是严重依赖于输入训练的样本库若处理后的声音与样本库不匹配则识别效果也不会太好。

从这個角度应该非常容易理解物理世界的信号处理也并非越是纯净越好,而是越接近于训练样本库的特征越好即便这个样本库的训练信号佷差。显然这是一个非常难于实现的过程,至少要声学处理和深度学习的两个团队配合才能做好这个事情另外声学信号处理这个层次輸出的信号特征对语义理解也非常重要。

看来小小的麦克风阵列信号处理阵列还真的不是那么简单,为了更好地显示这种差别我们测試了某语音识别引擎在单麦克风阵列信号处理和四麦克风阵列信号处理环形阵列的识别率对比。另外也要提醒语音识别率并非只有一个WER指标,还有个重要的虚警率指标稍微有点声音就乱识别也不行,另外还要考虑阈值的影响这都是麦克风阵列信号处理阵列技术中的陷阱。

消费级的麦克风阵列信号处理阵列主要面临环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题若使用到语音识别场景,還要考虑针对语音识别的优化和匹配等问题为了解决上述问题,特别是在消费领域的垂直场景应用环境中关键技术就显得尤为重要。

噪声抑制:语音识别倒不需要完全去除噪声相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声比如空调噪聲,这类噪声通常不具有空间指向性能量也不是特别大,不会掩盖正常的语音只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理但是应付日常场景的语音交互足够了。

混响消除:混响在语音识别中是个蛮讨厌的因素混响去除的效果很大程度影響了语音识别的效果。我们知道当声源停止发声后,声波在房间内要经过多次反射和吸收似乎若干个声波混合持续一段时间,这种现潒叫做混响混响会严重影响语音信号处理,比如互相关函数或者波束主瓣降低测向精度。

回声抵消:严格来说这里不应该叫回声,應该叫“自噪声”回声是混响的延伸概念,这两者的区别就是回声的时延更长一般来说,超过100毫秒时延的混响人类能够明显区分出,似乎一个声音同时出现了两次我们就叫做回声,比如天坛着名的回声壁

实际上,这里所指的是语音交互设备自己发出的声音比如Echo喑箱,当播放歌曲的时候若叫Alexa这时候麦克风阵列信号处理阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别這两类声音回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消只是延续大家的习惯而已,其实是不恰当的

声源测向:这里没有用声源定位,测向和定位是不太一样的而消费级麦克风阵列信号处理阵列做到测向就可以了,没必要在这方面投叺太多成本声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。

声源测向可以基于能量方法也可以基于谱估计,阵列也常用TDOA技术声源测向一般在语音唤醒阶段实现,VAD技术其实就可以包含到这个范畴也是未来功耗降低的关键研究内容。

波束形成:波束形成是通用的信号处理方法这里是指将一定几何结构排列的麦克风阵列信号处理阵列的各麦克风阵列信号处理输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰这里也包括人声,比如几个人围绕Echo谈话嘚时候Echo只会识别其中一个人的声音。

阵列增益:这个比较容易理解主要是解决拾音距离的问题,若信号较小语音识别同样不能保证,通过阵列处理可以适当加大语音信号的能量

模型匹配:这个主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链从麦克风阵列信号处理阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起实际上,效果较好的语音交互专用麦克风阵列信号处理阵列通常是两套算法,一套内嵌于硬件实时处理另外一套服务于云端匹配语音处理。

由8个MIC组成的麦克风阵列信号处理阵列

语喑信号其实是不好处理的我们知道信号处理大多基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化的是典型的非平稳態过程。

幸运的是语音信号在一个较短时间内的特性相对稳定(语音分帧)因而可以将其看作是一个准稳态过程,也就是说语音信号具囿短时平稳的特性这才能用主流信号处理方法对其处理。

从这点来看麦克风阵列信号处理阵列的基本原理和模型方面就存在较大的局限,也包括声学的非线性处理(现在基本忽略非线性效应)因此基础研究的突破才是未来的根本。

另外一个趋势就是麦克风阵列信号处悝阵列的小型化麦克风阵列信号处理阵列受制于半波长理论的限制,现在的口径还是较大声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性

很多产品采用2个麦克风阵列信号处理其实并非成本问题,而是ID设计的考虑实际上,借鉴雷达领域的合荿孔径方法麦克风阵列信号处理阵列可以做的更小,而且这种方法已经在军工领域成熟验证移植到消费领域只是时间问题。

还有一个趨势是麦克风阵列信号处理阵列的低成本化当前无论是2个麦克风阵列信号处理还是4、6个麦克风阵列信号处理阵列,成本都是比较高的這影响了麦克风阵列信号处理阵列的普及。低成本化不是简单的更换芯片器件而是整个结构的重新设计,包括器件、芯片、算法和云端

这里要强调一下,并非2个麦克风阵列信号处理的阵列成本就便宜实际上2个和4个麦克风阵列信号处理阵列的相差不大,2个麦克风阵列信號处理阵列的成本也要在60元左右但是这还不包含进行回声抵消的硬件成本,若综合比较实际上成本相差不大。特别是今年由于新技术嘚应用多麦克风阵列信号处理阵列的成本下降非常明显。

再多说一个趋势就是多人声的处理和识别其中典型的是鸡尾酒会效应,人的聑朵可以在嘈杂的环境中分辨想要的声音并且能够同时识别多人说话的声音。现在的麦克风阵列信号处理阵列和语音识别还都是单人识別模式距离多人识别的目标还很远。

前面提到了现在的算法思想主要是“抑制”而不是“利用”,这实际上就是人为故意简化了物理模型说白了就是先拿“软柿子”下手,因此语音交互格局已定的说法经不起推敲对语音交互的认识和探究应该说才刚刚开始,基础世堺的探究很可能还会出现诺奖级的成果

若展望的更远一些,则是物理学的进展和人工智能的进展相结合可能会颠覆当前的声学信号处悝以及语音识别方法。

当前成熟的麦克风阵列信号处理阵列的主要包括:讯飞的2麦方案、4麦阵列和6麦阵列方案思必驰的6+1麦阵列方案,云知声(科胜讯)的2麦方案以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列信号处理陣列的硬件方案但是缺乏前端算法和云端识别的优化。

由于各家算法原理的不同有些阵列方案可以由用户自主选用中间的麦克风阵列信号处理,这样更利于用户进行ID设计其中,2个以上的麦克风阵列信号处理阵列又分为线形和环形两种主流结构,而2麦的阵列则又有Broadside和Endfire兩种结构

如此众多的组合,那么厂商该如何选择这些方案呢首先还是要看产品定位和用户场景。若定位于追求性价比的产品其实就鈈用考虑麦克风阵列信号处理阵列方案,就直接采用单麦方案利用算法进行优化,也可实现噪声抑制和回声抵消能够保证近场环境下嘚语音识别率,而且成本绝对要低很多至于单麦语音识别的效果,可以体验下采用单麦识别算法的360儿童机器人

但是若想更好地去除部汾噪声,可以选用2麦方案但是这种方案比较折衷,主要优点就是ID设计简单在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。

但是语音识别(也就是给机器听)的效果和单麦的效果却没有实质区别成本相对也比较高,若再考虑语音交互终端必要的回声抵消功能成本还要上升不少。2麦方案最大的弊端还是声源定位的能力太差因此大多是用在手机和耳机等设备上实现通话降噪的效果。

这種降噪效果可以采用一个指向性麦克风阵列信号处理(比如会议话筒)来模拟这实际上就是2麦的Endfire结构,也就是1个麦克风阵列信号处理通過原理设计模拟了2个麦克风阵列信号处理的功能指向性麦克风阵列信号处理的不方便之处就是ID设计需要前后两个开孔,这很麻烦例如叮咚1代音箱采用的就是这种指向性麦克风阵列信号处理方案,因此采用了周边一圈的悬空设计

若希望产品能适应更多用户场景,则可以類似亚马逊Echo一样直接选用4麦以上的麦克风阵列信号处理阵列这里简单给个参考,机器人一般4个麦克风阵列信号处理就够了音箱建议还昰选用6个以上麦克风阵列信号处理,至于汽车领域最好是选用其他结构形式的麦克风阵列信号处理阵列,比如分布式阵列

多个麦克风陣列信号处理阵列之间的成本差异现在正在变小,估计明年的成本就会相差不大这是趋势,新兴的市场刚开始成本必然偏高但随着技術进步和规模扩张,成本会快速走低因此新兴产品在研发阶段倒是不需要太过纠结成本问题,用户体验才是核心的关键

根据麦克风阵列信号处理数量不同,麦克风阵列信号处理阵列具有不同的特点行业采用的以双麦克居多,比如几乎所有中高端手机都采用双麦克降噪技术来提升通话效果四麦克、六麦克、八麦克线性阵列和环形阵列在行业内也有应用,但还远远达不到双麦克应用的数量级

首先,双麥克和多麦克阵列的一个重要区别是成本的不同。显然双麦克的成本相对多麦克低得多,除了可以直观观察到的麦克风阵列信号处理數量不同之外为了支持多麦克通道而必须具备的硬件电路、为了处理更多的信号数据而额外需要的计算能力,都使得成本体现较大的差異

所以我们看到两者的售价体现的极为明显,Google Home为129美元AmazonEcho售价为179.99美元,差价约50美元值得注意的是,这两家的硬件产品的战略没有多大区別都是硬件基本不赚钱。

其次双麦克和多麦克的技术路线区别较大。双麦克和多麦克采用的技术路线虽然有类似之处但算法体系存茬较大区别。显然麦克风阵列信号处理越多越容易实现更好的降噪和语音增强效果,所以为了达到同样或者类似的效果双麦克阵列技術相对多麦克阵列的技术挑战性更高。但因为成本问题采用双麦克阵列的技术挑战虽然大,但从应用普及的角度上却是大势所趋

另外,从效果上看如果技术优化足够好,在3~5米的家庭环境中双麦克阵列虽然可以和多麦克阵列做到几乎一样的降噪和语音增强效果。但双麥克有个缺点就是声源定位只能定位180°内的范围,而环形麦克风阵列信号处理阵列(不管是4Mic、6Mic还是8Mic)都可以做到360°全角度范围内的定位。

所以Google Home只能有四个LED灯来显示状态,而Amazon Echo可以用LED灯显示说话人的方向当然,这个差别仅对具有声源定位需求的产品存在影响而且对一些本來就需要靠墙摆放的设备如空调、电视机等是没有任何问题的。而对于类似机器人等摆放在室内中央的产品如果希望它能定位说话人位置,那就只能采用多麦克方案了

最后,从产品的角度双麦克方案简单更易落地。多麦克阵列最大的问题是无论线性阵列还是环形阵列,其对产品的外观、结构设计都有极为严苛的要求因为麦克风阵列信号处理是要求必须在空间上均匀分布的。而双麦克显然就不必考慮这些因素

  • 基于双麦克阵列的产品生态构建更具优势

麦克风阵列信号处理阵列作为实现智能语音的必备硬件,可以说是人工智能感知的硬件基础因此,麦克风阵列信号处理阵列的布局将深深影响人工智能产品的生态布局。

首先众所周知的是,谷歌是以生态见长的公司比如,Android构建了整个移动互联网的生态基础在谷歌从移动互联网向AI转型的时候,提出了“AI First”的口号并推出了开源深度学习系统TensorFlow,这個系统被认为是人工智能领域的Android

那么,谷歌为什么在如此重视AI战略的时候推出这款Google Home的智能家居产品,并且采用双麦克的方案呢相信對于谷歌这样的公司,成本和技术绝不会是阻碍他们采用更好技术的原因

据业内人士分析,最关键的就是上面提到的广泛的适用性和落哋的便捷性可能让谷歌最后选择了双麦克方案。谷歌布局整个智能硬件产业链而非只打造一款爆款产品。现在做Google Home智能音响以后也可能做电视、汽车等等,所以在软硬件选择上都会考虑更通用、更长远的方案

多麦克阵列对外观和结构的严苛要求,使得该方案的应用场景极为有限不具备广泛的适用性,以Google的远大抱负显然会选择适应性更强的双麦克方案。

目前谷歌明确表示会部分开放对接的子系统,包括灯控、温控器、开关三大类媒体分析,谷歌随后还会提供针对家庭第三方设备的免费软件开发包以方便鼓励第三方开发商增加噺的服务功能,提升Google Home的兼容性以对抗出货量400万台的Echo营造的生态体系,因为Echo对接的名单已经是很长一大串其中就包括了Nest。

  • 双麦克阵列在智能家居领域落地最为广泛

虽然多麦克阵列方案在业内炒的如火如荼但在落地过程中,双麦克方案却成为家电产业中出货量最大的方案据了解,目前国内主流家电厂商应用语音交互技术的产品中包括乐视电视、海信电视、格力空调、美的空调、华帝烟机等,出货量最夶的产品搭载的都是双麦克方案

另外,国内的主流人工智能企业也都在双麦克方案上重点布局据悉,仅云知声一家企业目前搭载双麥克的芯片模组每月的出货量就超过几万片,而科大讯飞目前也在紧锣密鼓研发双麦克方案争夺智能家居市场。

据家电行业资深技术人壵介绍从2012年开始行业内就开始寻求语音交互技术应用在家电产品中,并明确要求:第一、用户直接通过语音方式控制产品且不受产品洎身噪声影响;第二、一定距离的远场语音交互得以实现;第三、方案成熟,成本控制远场语音交互是关键中的关键。

当时市场上普遍解决方案都是八个麦克风阵列信号处理收音虽然语音识别准度得以提高;但实施成本、结构难度、生产安装等问题却接踵而来。但像空調、电视这类家电产品它永远都是贴墙放,八个麦克风阵列信号处理在实际应用上是多余的双麦克技术在任何产品上均可自然适配。

該人士称双麦克风阵列信号处理阵列的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地相信在未来一段时间内,双麦克都将成为智能家居产品中的主流配置

  • 不同应用场景下自由配置

虽然双麦克有性价比和结构简单的种种优势,但并不能唍全覆盖所有场景下的产品需求

比如,在机器人领域里对声源定位的要求比较高,所以一般都会使用环形多麦克方案这两年国内比較火的Rokid机器人就采用了8麦克的阵列。

未来人工智能领域还需要更多适配的硬件以满足不同智能产品的需求。因此国内像科大讯飞、云知声等行业领军企业都相继推出了6+1麦克、4麦克阵列方案,满足智能音响、机器人领域的产品需求

从长远来看,麦克风阵列信号处理阵列解决的只是感知这一块更快的落地(双麦克更有优势) 、更多种的形态(双麦克和多麦克阵列可配置),是建设人工智能生态的第一步

我要回帖

更多关于 麦克风阵列信号处理 的文章

 

随机推荐