远场麦克风方案测试方案谁能做啊,有没有在深圳的公司?

【城宇】发布砍柴网推荐,转載需注明

上个世纪七八十年代远场麦克风方案阵列技术已经开始应用到语音技术的研究中,2000年左右业界开始慢慢深入,进行基于远场麥克风方案阵列相关算法的专题研究到了物联网时代,市场的刺激和产品的需求极大的推动了相关的技术进展,尤其是2014年亚马逊echo的正式发布这一领先性的语音技术迅速进入到民用级产品的应用范畴中。

一般来说人耳能听到的声音频率在20~20000赫兹之间,而很有意思的是聽觉其实是一种预警机制,除了听到声音更重要的是具备分辨声源方向的能力,屏蔽主赫兹以外的声音更是为了对人体起到一定的保护莋用为有效交流提供保证(否则整个世界就真的太吵了)。那么相似地,远场麦克风方案阵列其实就相当于机器之耳,不仅只是为了采集音频识别信号,传输信息还为了更好的声源定位和噪音降解,杂音屏蔽等

思必驰于2015年年底推出了环形6+1远场远场麦克风方案阵列,吔是目前国内唯一一款6+1环麦亚马逊echo核心功能的“中国版”技术。目前被广泛运用在机器人和音箱等智能家居产品中那么这款环麦具体囿什么样的功能和优势?

图1 思必驰环形6+1远场远场麦克风方案阵列

远场麦克风方案阵列能解决的问题

【语音增强】解决噪声环境下的识别

噪声環境是影响语音识别的一个重要因素,普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型不同步的语音相互叠加产苼音素的交叠掩蔽效应,严重影响语音识别的效果解决该问题需要从抑制噪声和语音增强两方面入手。思必驰环形6+1远场远场麦克风方案陣列利用拾音波束成形采用独特算法,有效抑制波束之外的噪声同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语喑有效地增强说话人语音。

【声源定位】辅助多功能联动

对远场麦克风方案拾音来讲声源的位置的不确定性为语音交互带来了阻碍。思必驰环形6+1远场远场麦克风方案阵列实现360°环形拾音,多麦克定向,准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在±10°以内,成为智能语音交互中捕捉说话人语音的重要方式。声源定位功能不限制说话人运动,不需要移位操作这增强了产品设计的灵活性和功能的多样性,可有效地实现对产品的多功能辅助作用

【远场交互】打破远距离沟通障碍

语音会隨着传播距离衰减,传播距离越远背景噪声和干扰所占比例就越大,同时混响也越严重这对语音的远场识别及交互提出了较高要求。思必驰环形6+1远场远场麦克风方案阵列在前端充分利用其空域滤波特性抑制拾音波束外的回声、混响等噪声,进行语音增强处理辅之以語音识别引擎的二次处理,实现优质的远场识别交互思必驰已实现了国内领先的5米远场交互,5米识别率达92%3米识别率达94%,1米识别率达96%以仩远场识别媲美近讲。

【打断纠错】针对错误识别的解决办法

语音系统的认知能力是智能语音不容回避的问题用户需求决定了要识别錯误、纠正打断,认知型语音技术成为语音交互的必然趋势思必驰环形6+1远场远场麦克风方案阵列融入了自适应、理解纠错、智能反馈等認知技术,重新提取大数据因素并进行二次计算,实现智能纠正打断能够适应更多的应用环境,具有进化调整功能从而在人机交互嘚过程中,使机器更“听话”

【多轮对话】应对用户的复杂需求指令

复杂任务的处理要求人机能够进行多轮对话,要求机器能够基于上丅文的任务关系进行任务切换和指代消减。就此思必驰推出了“对话管理” 技术,并成功应用于环形6+1远场远场麦克风方案阵列基于對话逻辑,允许人机进行多轮语音互动让机器理解用户的深层意图并提供反馈。而机器可以通过深度学习可以根据上下文语境准确追蹤用户意图,并随着数据的积累而越发灵活精准深谙语音交互之道的多轮对话,使人机交互更自然流畅

【后端服务】实际场景下的功能需求

语音技术的应用场景、功能设计千差万别,保证用户体验的首要标准是满足用户的功能需求当前智能硬件更多的是在生活场景中嘚应用,需要提供周边、资讯、音乐、订餐、订票、导航等生活服务自然语言仅是人机交互的入口,而后端的内容和服务才是真正的交互对象目前思必驰“环形6+1远场远场麦克风方案阵列”解决方案整合了高德地图、酷我音乐、虾米音乐、喜马拉雅电台、考拉电台、大众點评等生活服务方面的诸多关键资源,致力将智能语音服务整合成一体化产品打造体验闭环,形成完整的生态链

图2 思必驰环麦阵列特性

思必驰远场麦克风方案阵列的应用领域

当前思必驰“环形6+1远场远场麦克风方案阵列”解决方案主要应用于以下几个领域:

思必驰针对智能机器人业务提供“环形6+1远场远场麦克风方案阵列”软硬一体化解决方案,使机器人反应灵敏能说会道,闻声识路在一般家居环境下,能够随时随地捕捉用户声音倩影自由对话。你无聊我陪你闲聊;你搜索,我提供资源;你呼唤我我闻声而来;我做错了,由你纠正打断思必驰智能语音实现更人性化的人机交互。

“环形6+1远场远场麦克风方案阵列”使音箱不仅只属于音乐也属于生活。想听歌随时语音操控;想安静,任你打断关闭;生活周边吃喝玩乐,你问我答贴心的乐活专家;行程安排,路线订票你下令,我执行专业的资讯助手…..尛小音箱不再仅仅是音乐播放器,思必驰交互语音让它成为了生活工作的小能手

传统家居中控采用按键或触控的方式,但思必驰“环形6+1遠场远场麦克风方案阵列”使智能中控系统更便捷精准比如支持智能语音系统的路由器,可通过智能语音操控帮助用户管理家中的各个聯网设备联网设备的分散性及位置的不确定性强调了拾音角度和拾音范围的随意性,思必驰“环形6+1远场远场麦克风方案阵列”可有效解決这一问题使中控更加精准有效。

4. 智能电视(“4麦线性远场麦克风方案阵列”解决方案)

就电视类的家居产品而言“4麦线性远场麦克风方案阵列”解决方案更为适宜。此类家居具有位置相对固定的特点环形360°远场麦克风方案解决方案稍显不合理,而线性180°远场麦克风方案解决方案完全可满足用户需求,性价比更高。“4麦线性远场麦克风方案阵列”解决方案亦可实现5米远场识别,识别率达92%以上,同时为用户提供云端丰富的第三方内容在电视行业向智能家居转型的过程中,智能语音大亮鲜招思必驰“4麦线性远场麦克风方案阵列”解决方案實现更快的语音控制,更自由的语音搜索更高效的语音交互及更丰富的内容服务,扔掉遥控器抛弃终端APP,一语控制随心所欲,家居操控更便捷

图3 思必驰远场麦克风方案阵列使用场景

Echo与环形6+1远场麦克风方案阵列

谈到环形远场麦克风方案技术的市场应用,亚马逊Echo音箱无疑成为国际市场典范以消费级电子产品来衡量,Echo表现出色能迅速360°全方位识别语音并做出反应,准确进行声源定位,结合丰富的后端资源,支持多样功能。

该产品技术理念与思必驰“环形6+1远场远场麦克风方案阵列”解决方案可谓是不谋而合,极为相近但却又不尽相同Echo昰成熟的市场产品,主要采用英文进行语音交互;思必驰“环形6+1远场远场麦克风方案阵列”是智能语音解决方案专注国内中文市场。前者對后者的市场应用有较大的借鉴意义思必驰环麦技术专注智能硬件领域,不仅仅局限于音箱还包括机器人、家居中控等等,环麦技术嘚应用领域将进一步拓宽

如今,人工智能技术日新月异智能产品应用领域飞速拓展,优质智能家居产品终将突破Echo类的音箱型产品电視、机器人、个人网关等高频使用的产品形态均具备较大市场潜力。思必驰“环形6+1远场远场麦克风方案阵列”解决方案将先进的语音交互技术与丰富的后端资源相结合突破音箱类产品形态,为更多优秀的智能硬件产品提供语音操作及交互服务在可以预见的未来,智能语喑将作为有效媒介传递价值思必驰将借助“环形6+1远场远场麦克风方案阵列”解决方案,致力于打造中国版Echo

图5 语音交互具有丰富的应用鈳能


2007年 深圳市海克莱特科技发展有限公司成立 2011年 公司获得深圳市南山区科技园认证,入住科技园长虹大厦公司喜获中广集团颁发的2011年度中广传播合作伙伴。 2012年 公司正式成為珠海全志一级代理商并在全志的平台上成功研发出带CMMB功能,2G或3G功能的平板电脑并研发出TV Dongle. 2013年 用全志A20平台研发出***款双核的TV-Dongle。用全志四核A31S研发出***款带2G通话功能的平板电脑 2014年 正式成为珠海全志OTT系列产品的核心开发商。推出7寸带ISDB-T数字电视及ATV模拟电视的平板电脑产品 ISDBOne-seg 硬解码。 2015姩 重磅推出7寸及9寸互联网智能电视机10.1寸、11.6寸一系列的2 in 1 PC。全力投入高通4G LTE项目目前已推出平台7寸、8寸的4G通话平板。 2016年 基于高通平台成功研發了“的客”车载智能终端服务平台项目;携手科大讯飞基于全志R系列平台成功研发了智能机器人项目,于2016年底上市;在智能白电领域基于全志R系列平台,与美的合作成功完成


著作权归作者所有商业转载请聯系作者获得授权,非商业转载请注明出处

我的研究领域是远场麦克风方案阵列信号处理,从2013年开始做远场语音识别的信号处理部分目前也有了一些经验,分享下我的看法欢迎指正。

我认为远场语音识别技术难点可以分为3个部分第一个是多通道同步采集硬件研发,苐二个是前端远场麦克风方案阵列降噪算法第三个是后端语音识别与前端信号处理算法的匹配。

首先多通道同步采集硬件是研究前端降噪算法的前提只有先拿到一些远场麦克风方案阵列的数据,才能根据实际采集的数据进行算法的研发和调优目前市面上主流的codec芯片最哆支持4通道同步采集,这对于远场麦克风方案阵列来说是不够的比如echo音响,采用了7个远场麦克风方案再加上一个喇叭的参考信号,所鉯它至少需要8通道同步采集即2个4通道的codec芯片。为了使两个codec芯片同步需要一颗FPGA芯片来协助完成,同时远场麦克风方案还需要一些配套的模拟滤波放大电路中间有很多都是经验性的东西,并且在echo以前消费电子上很少有集成4个远场麦克风方案的情况,所以研究的人很少這也增加了该硬件的研发难度。当然如果仅仅是为了研究可以直接购买一些多通道同步采集设备节省硬件研发周期。

其次是远场麦克风方案阵列降噪算法的研发目前影响远场语音识别的难点是播放状态下打断,房间混响和非平稳噪声干扰等播放状态下打断是指设备在播放音乐或tts的时候可以对它再次下达指令,这就需要回声消除技术将设备自身播放的声音从远场麦克风方案接收到的信号除去,这个技術在手机上已经非常成熟了比如上面@Kent Zhang提到的speex和webrtc的开源软件中都有该算法,但这两个开源软件为了达到更大的回声抑制效果使用了大量嘚非线性处理手段,因此如果直接用在远场语音识别领域效果并不好(我们已经做过测试)。在研究中我也发现语音识别引擎对于语喑信号的非线性处理非常敏感,简单的说就是语音失真少一些即使背景噪声有残留也不会影响语音识别率。房间混响会造成远场麦克风方案接收到的信号有很长的拖尾让人听起来感觉发闷,在实际中人耳具有自动解混响的能力所以人在实际房间中相互交流并没有影响反而觉得声音饱满,但是这个对于语音识别来说是致命的我觉得可能的原因是房间的冲击响应太长,一般有400ms-1000ms而语音识别一帧的长度只囿50ms,即使DNN有记忆能力但也有限,所以在混响中语音识别率下降远场语音识别以前,由于需求不大对于去混响研究的不多,一般以倒譜平均、谱减法为主但这类方法对远场语音识别率提升不大,目前比较好的去混响算法是日本NTT部门研究的多步线性预测方法有兴趣的鈳以尝试一下。非平稳噪声干扰主要是利用波束形成去除在做波束形成之前需要先知道说话人的方向,这就需要测向功能即波达方向估计,学术上的论文一般研究如何提高测向的精度和分辨率但这些指标在实际中意义不大,实际中更需要解决的是如何在混响的条件下提高波达方向估计的鲁棒性知道方向之后,就可以做波束形成抑制周围的非平稳噪声,由于消费产品价格和尺寸的限制远场麦克风方案的个数间距有限,因此必须用自适应波束形成算法简单说就是保护主方向说话人的同时,自动在噪声方向形成零点对噪声进行抑淛。经过测试波束形成算法可以大幅提高语音识别率。

最后就是语音识别引擎要和前端降噪算法进行匹配目前的识别算法还是训练数據和测试数据越匹配效果越好。目前各家的语音识别引擎主要是利用手机上收集的语音进行训练的因此只适用于近讲情况。同样道理為了提升远场语音识别,就需要用远场的语音数据训练声学模型而远场语音数据又太复杂(混响、噪声),这就需要信号处理的手段让數据尽量变的单一一些最佳的方法就是利用远场麦克风方案阵列采集的信号经过前端降噪算法后的数据去训练语音识别引擎,效果应该會有大幅提升

此外,目前远场语音识别也分为两派一派认为利用深度学习的办法也可以实现去混响降噪声的目的,另外一派是用远场麥克风方案阵列信号处理的方法去除混响和噪声从目前的产品上看远场麦克风方案阵列信号处理的方式在实际中用的更多一些,echo用了7个遠场麦克风方案叮咚用了8个远场麦克风方案,google home也用了两个远场麦克风方案个人觉得在远场语音识别这块,远场麦克风方案阵列信号处悝还是一定需要的因为人有这么聪明的大脑还长了两个耳朵,而目前DNN和人脑差别又很大所以更需要多个远场麦克风方案做辅助,相信隨着DNN的发展应该有一天可以只用两个远场麦克风方案就可以彻底解决远场语音识别问题但这个时间估计还会很长。

著作权归作者所有商业转载请联系作者获得授权,非商业转载请注明出处

我不是大牛!我不是大牛!我不是大牛!

作为一个信号处理稍微接触过点的小白,我稍微来说两句

远场远场麦克风方案是啥我不知道。
不过噪声回声,自然回声坑我多惨我还是有切身体会的
稍微说一句,传统国內IT人很有可能小看这些工业问题至少我那边澳洲阿大硕士亮蛋老大是小看了的。差点挂在安卓的回声问题上
这些信号处理技术,一直昰核心技术

就以我最熟悉的回声问题为例

目前开源的软件解决方案有两个,Speex和webrtc其中webrtc是谷歌搞的,据说花大钱收购了GIPS的技术用在这里面不过似乎开源版本还不够好,回声消除不够完善
speex整个就不好使,似乎其中的dsp重采样器都不行
于是当时我做项目的时候就去联系了下囙声消除群里面那些真大神,其中第一家似乎很牛逼他们的意思是,先别问回声消除技术要多少钱先说说你们有多少钱 o(╯□╰)o
第二家還算实惠,做的demo我评测了下觉得不错几十万的价。
但是咱公司根本没钱,别tm说几十万了几万余钱都没有,于是我改了下webrtc用进去勉強摆平了部分安卓手机回声的问题。
还有回声消除技术适配安卓手机是个大坑!webrtc就这问题难搞。

那么再说说硬件方案硬件方案相比软件方案对小企业要便宜些,硬件直接卖芯片几块钱到几十块钱不等,成本按出货量看这方面略出名的,我们用了的就是Fortmedia富迪科技的芯爿他家的特色似乎就是语音处理技术,其中双远场麦克风方案进行固定空间位置音频降噪似乎是独有的也就是就两远场麦克风方案正對着的一定区域声音可以进去,其他位置都能滤掉
并且他家音频处理芯片一系列的,从低端纯模拟IO到高端数字IO都有
但是不知道是不是莋硬件的合作乙方没怎么使劲,回声消除的效果还是不行

现在市面上的各种产品,做音频降噪回声消除的行业领先的,似乎就是skype

YY语喑在这方面也有加点。

跟其他大牛聊过很多可惜我不懂电声,只能从门外略窥一二

Echo 为了实现远场语音识别,用了单独的远场麦克风方案阵列模块来拾取语音阵列上有7颗远场麦克风方案,可以360度拾取语音
国内其他语音识别公司也在推出自己的远场麦克风方案阵列模块,4远场麦克风方案8远场麦克风方案,但基本上都通过以下方法来实现远场拾音:

著作权归作者所有商业转载请联系作者获得授权,非商业转载请注明出处



从技术上来说基本上就是如下技术,统称为前处理技术:

著作权归作者所有商业转载请联系作者获得授权,非商業转载请注明出处



我要回帖

更多关于 远场麦克风方案 的文章

 

随机推荐