麥克風(fēng)陣列的語(yǔ)音信號(hào)處理技術(shù)

中國(guó)投影網(wǎng)投影資訊　來(lái)源：中國(guó)投影網(wǎng) 　2017-1-12 14:40:55　編輯：清風(fēng)斬月　[ 大中小 ]

熟悉人工智能的朋友一定明白，語(yǔ)音交互對(duì)于人機(jī)對(duì)話交互的重要意義，而一個(gè)完整的語(yǔ)音交互涉及到人的語(yǔ)音、語(yǔ)義，機(jī)器的麥克風(fēng)、處理器、核心算法等多個(gè)部分，是一項(xiàng)看似簡(jiǎn)單，實(shí)則復(fù)雜的龐大工程！

前言

隨著人工智能與人們的生活越來(lái)越近，語(yǔ)音技術(shù)的發(fā)展也備受關(guān)注。傳統(tǒng)的近場(chǎng)語(yǔ)音已經(jīng)無(wú)法滿足人們的需求，人們希望可以在更遠(yuǎn)的距離，更復(fù)雜的環(huán)境中語(yǔ)音控制智能設(shè)備。因此，陣列技術(shù)成為遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)的核心。

陣列麥克風(fēng)對(duì)人工智能的意義

1.空間選擇性：通過(guò)電掃陣列等空間定位技術(shù)可以獲取聲源的有效位置，智能設(shè)備在獲取精準(zhǔn)的聲源位置信息，讓我們的語(yǔ)音更加智能，通過(guò)算法獲取高品質(zhì)的語(yǔ)音信號(hào)質(zhì)量。

2.麥克風(fēng)陣列可以自動(dòng)檢測(cè)聲源位置，跟蹤說(shuō)話人，同時(shí)可以獲取多聲源和跟蹤移動(dòng)聲源的優(yōu)勢(shì)，無(wú)論你走到任何位置，智能設(shè)備都會(huì)對(duì)你的位置方向進(jìn)行語(yǔ)音增強(qiáng)。

3.陣列麥克風(fēng)增加了空域處理，對(duì)多信號(hào)空時(shí)頻三維的處理彌補(bǔ)單信號(hào)在噪聲抑制，回聲抑制，混響抑制，聲源定位，語(yǔ)音分離方面的不足，讓我們的智能設(shè)備在復(fù)雜的環(huán)境中都可以獲取高質(zhì)量的語(yǔ)音信號(hào)，提供更好的智能語(yǔ)音體驗(yàn)。
麥克風(fēng)陣列技術(shù)的技術(shù)難點(diǎn)

傳統(tǒng)的陣列信號(hào)處理技術(shù)直接應(yīng)用到麥克風(fēng)陣列處理系統(tǒng)中往往效果不理想，其原因在于麥克風(fēng)陣列處理有不同的處理特點(diǎn)：

1.陣列模型的建立

麥克風(fēng)主要應(yīng)用處理語(yǔ)音信號(hào)，拾音范圍有限，且多用于近場(chǎng)模型，使得常規(guī)的陣列處理方法如雷達(dá)，聲吶等平面波遠(yuǎn)場(chǎng)模型不再適用，在近場(chǎng)模型中，需要更加精準(zhǔn)的球面波，需要考慮傳播路徑不同引起的幅度衰減不同。

2.寬帶信號(hào)處理

通常的陣列信號(hào)處理多為窄帶，即不同陣元在接受時(shí)延與相位差主要體現(xiàn)在載波頻率，而語(yǔ)音信號(hào)未經(jīng)過(guò)調(diào)制也沒(méi)有載波，且高低頻之比較大，不同陣元的相位延時(shí)與聲源本身的特性關(guān)系很大—頻率密切相關(guān)，使得傳統(tǒng)的陣列信號(hào)處理方法不再完全適用。

3.非平穩(wěn)信號(hào)處理

傳統(tǒng)陣列處理中，多為平穩(wěn)信號(hào)，而麥克風(fēng)陣列的處理信號(hào)多是非平穩(wěn)信號(hào)，或者短時(shí)平穩(wěn)信號(hào)，因此麥克風(fēng)陣列一般對(duì)信號(hào)做短時(shí)頻域處理，每個(gè)頻域均對(duì)應(yīng)一個(gè)相位差，將寬帶信號(hào)在頻域上分成多個(gè)子帶，每個(gè)子帶做窄帶處理，再合并成寬帶譜。

4.混響

聲音傳播受空間影響較大，由于空間反射，衍射，麥克風(fēng)收到的信號(hào)除了直達(dá)信號(hào)以外，還有多徑信號(hào)疊加，使得信號(hào)被干擾，即為混響。在室內(nèi)環(huán)境中，受房間邊界或者障礙物衍射，反射導(dǎo)致聲音延續(xù)，極大程度的影響語(yǔ)音的可懂度。

聲源定位

聲源定位技術(shù)在人工智能領(lǐng)域應(yīng)用廣泛，利用麥克風(fēng)陣列來(lái)形成空間笛卡爾坐標(biāo)系，根據(jù)不同的線性陣列，平面陣列和空間陣列，來(lái)確定聲源在空間中的位置。智能設(shè)備首先可以對(duì)聲源的位置做進(jìn)一步的語(yǔ)音增強(qiáng)，當(dāng)智能設(shè)備獲取你的位置信息可以結(jié)合其他的傳感器進(jìn)行進(jìn)一步的智能體驗(yàn)，比如機(jī)器人會(huì)聽(tīng)到你的呼喚走到你的身邊，視頻設(shè)備會(huì)聚焦鎖定說(shuō)話人等等。了解聲源定位技術(shù)之前，我們需要了解近場(chǎng)模型和遠(yuǎn)場(chǎng)模型。

近場(chǎng)模型和遠(yuǎn)場(chǎng)模型

通常麥克風(fēng)陣列的距離為1~3m，陣列處于近場(chǎng)模型，麥克風(fēng)陣列接受的是球面波而不是平面波，聲波在傳播的過(guò)程中會(huì)發(fā)生衰減，而衰減因子與傳播的距離成正比，因此聲波從聲源到達(dá)陣元時(shí)候的幅度也各不相同。而遠(yuǎn)場(chǎng)模型中，聲源到陣元的距離差相對(duì)較小，可以忽略。通常，我們定義2L²/λ為遠(yuǎn)近場(chǎng)臨界值，L為陣列孔徑，λ為聲波波長(zhǎng)，因此陣元接受信號(hào)不僅有相位延時(shí)還有幅度衰減。

聲源定位技術(shù)

聲源定位的方法包括電掃陣列，超分辨譜估計(jì)和TDOA，分別將聲源和陣列之間的關(guān)系轉(zhuǎn)變?yōu)榭臻g波束，空間譜和到達(dá)時(shí)間差，并通過(guò)相應(yīng)的信息進(jìn)行定位。

1.電掃陣列

通過(guò)陣列形成的波束在空間掃描，根據(jù)不同角度的抑制不同來(lái)判斷方向。通過(guò)控制各個(gè)陣元的加權(quán)系數(shù)來(lái)控制陣列的輸出指向，進(jìn)行掃描。當(dāng)系統(tǒng)掃描到輸出信號(hào)功率最大時(shí)所對(duì)應(yīng)的波束方向就是認(rèn)為是聲源的DOA方向，從而可以聲源定位。電掃陣列的方式存在一定的局限，僅僅適用于單一聲源。若多聲源在陣列方向圖的同一主波束內(nèi)，則無(wú)法區(qū)分。而這種定位精度和陣列寬度有關(guān)—在指定頻率下，波束寬度和陣列孔徑成反比，所以大孔徑的麥克風(fēng)陣列在很多場(chǎng)合的硬件上很難實(shí)現(xiàn)。

2.超分辨譜估計(jì)

如MUSIC，ESPRIT等，對(duì)其協(xié)方差矩陣（相關(guān)矩陣）進(jìn)行特征分解，構(gòu)造空間譜，關(guān)于方向的頻譜，譜峰對(duì)應(yīng)的方向即為聲源方向。適合多個(gè)聲源的情況，且聲源的分辨率與陣列尺寸無(wú)關(guān)，突破了物理限制，因此成為超分辨譜方案。這類方法可以拓展到寬帶處理，但是對(duì)誤差十分敏感，如麥克風(fēng)單體誤差，通道誤差，適合遠(yuǎn)場(chǎng)模型，矩陣運(yùn)算量巨大。

3.TDOA

TDOA是先后估計(jì)聲源到達(dá)不同麥克風(fēng)的時(shí)延差，通過(guò)時(shí)延來(lái)計(jì)算距離差，再利用距離差和麥克風(fēng)陣列的空間幾何位置來(lái)確定聲源的位置。分為T(mén)DOA估計(jì)和TDOA定位兩步：

（1） TDOA估計(jì)

常用的有廣義互相關(guān)GCC，Generalized Cross Correlation和LMS自適應(yīng)濾波

(1) 廣義互相關(guān)
    基于TDOA的聲源定位方法中，主要用GCC來(lái)進(jìn)行延時(shí)估計(jì)。GCC計(jì)算方法簡(jiǎn)單，延時(shí)小，跟蹤能力好，適用于實(shí)時(shí)的應(yīng)用中，在中等嘈雜強(qiáng)度和低混響噪聲情況下性能較好，在嘈雜非穩(wěn)態(tài)噪聲環(huán)境下定位精度會(huì)下降。
大牛講堂 | 語(yǔ)音專題第一講，麥克風(fēng)陣列的語(yǔ)音信號(hào)處理技術(shù)
    (2) LMS自適應(yīng)濾波
在收斂的狀態(tài)下給出TDOA的估值，不需要噪聲和信號(hào)的先驗(yàn)信息，但是對(duì)混響較為敏感。該方法將兩個(gè)麥克風(fēng)信號(hào)作為目標(biāo)信號(hào)和輸入信號(hào)，用輸入信號(hào)去逼近目標(biāo)信號(hào)，通過(guò)調(diào)整濾波器系數(shù)得到TDOA。
    (2)TDOA定位

TDOA估值進(jìn)行聲源定位，三顆麥克風(fēng)陣列可以確定空間聲源位置，增加麥克風(fēng)會(huì)增高數(shù)據(jù)精度。定位的方法有MLE最大似然估計(jì)，最小方差，球形差值和線性相交等。TDOA相對(duì)來(lái)講應(yīng)用廣泛，定位精度高，且計(jì)算量最小，實(shí)時(shí)性好，可用于實(shí)時(shí)跟蹤，在目前大部分的智能定位產(chǎn)品中均采用TDOA技術(shù)做為定位技術(shù)。

波束形成

波束形成可分為常規(guī)的波束形成CBF，Conventional Beam Forming和自適應(yīng)波束形成ABF，Adaptive Beam Forming。CBF是最簡(jiǎn)單的非自適應(yīng)波束形成，對(duì)各個(gè)麥克風(fēng)的輸出進(jìn)行加權(quán)求和得到波束，在CBF中，各個(gè)通道的權(quán)值是固定的，作用是抑制陣列方向圖的旁瓣電平，以濾除旁瓣區(qū)域的干擾和噪聲。

ABF在CBF的基礎(chǔ)之上，對(duì)干擾和噪聲進(jìn)行空域自適應(yīng)濾波。ABF中，采用不同的濾波器得到不同的算法，即不同通道的幅度加權(quán)值是根據(jù)某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整和優(yōu)化。如LMS，LS，最大SNR，LCMV（線性約束最小方差，linearly constrained Minimum Variance）。采用LCMV準(zhǔn)則得到的是MVDR波束形成器（最小方差無(wú)畸變響應(yīng)，Minimum Variance Distortionless Response）。LCMV的準(zhǔn)則是在保證方向圖主瓣增益保持不變的情況下，使陣列的輸出功率最小，表明陣列輸出的干擾加噪聲功率最小，也可以理解為是最大SINR準(zhǔn)則，從而能最大可能的接收信號(hào)和抑制噪聲和干擾。

CBF-傳統(tǒng)的波束形成

延時(shí)求和的波束形成方法用于語(yǔ)音增強(qiáng)，對(duì)麥克風(fēng)的接收信號(hào)進(jìn)行延時(shí)，補(bǔ)償聲源到每個(gè)麥克風(fēng)的時(shí)間差，使得各路輸出信號(hào)在某一個(gè)方向同相，使得該方向的入射信號(hào)得到最大的增益，使得主波束內(nèi)有最大輸出功率的方向。形成了空域?yàn)V波，使得陣列具有方向選擇性。

CBF + Adaptive Filter 增強(qiáng)型波束形成

結(jié)合Weiner濾波來(lái)改善語(yǔ)音增強(qiáng)的效果，帶噪語(yǔ)音經(jīng)過(guò)Weiner濾波得到基于LMS準(zhǔn)則的純凈語(yǔ)音信號(hào)。而濾波器系數(shù)可以不斷更新迭代，與傳統(tǒng)的CBF相比，可以更有效的去除非穩(wěn)態(tài)噪聲。

ABF-自適應(yīng)波束形成

GSLC是一種基于ANC主動(dòng)噪聲對(duì)消的方法，帶噪信號(hào)同時(shí)通過(guò)主通道和輔助通道，而輔助通道的阻塞矩陣將語(yǔ)音信號(hào)濾除，得到僅包含多通道噪聲的參考信號(hào)、各通道根據(jù)噪聲信號(hào)得到一個(gè)最優(yōu)信號(hào)估計(jì)，得到純凈語(yǔ)音信號(hào)估計(jì)。

陣列技術(shù)的未來(lái)發(fā)展

麥克風(fēng)陣列技術(shù)相對(duì)于單麥克風(fēng)系統(tǒng)有很多優(yōu)點(diǎn)，已成為語(yǔ)音增強(qiáng)及語(yǔ)音信號(hào)處理的重要部分。語(yǔ)音增強(qiáng)和聲源定位已經(jīng)成為陣列技術(shù)中不可缺少的部分，在視頻會(huì)議，智能機(jī)器人，助聽(tīng)器，智能家電，通信，智能玩具，車載領(lǐng)域都需要聲源定位和語(yǔ)音增強(qiáng)。各種信號(hào)處理技術(shù)，陣列信號(hào)處理技術(shù)都陸續(xù)結(jié)合到麥克風(fēng)陣列的語(yǔ)音處理系統(tǒng)當(dāng)中，并逐漸得到算法改進(jìn)和進(jìn)一步的廣泛應(yīng)用。在復(fù)雜的噪聲環(huán)境，混響環(huán)境，聲學(xué)環(huán)境下，強(qiáng)大的硬件處理能力也使得復(fù)雜算法實(shí)時(shí)處理語(yǔ)音增強(qiáng)成為了可能。在未來(lái)，語(yǔ)音和圖像的緊密結(jié)合會(huì)成為人工智能領(lǐng)域的新的突破口，在人工智能的風(fēng)口浪尖，是誰(shuí)能將語(yǔ)音識(shí)別，語(yǔ)音理解，陣列信號(hào)處理，遠(yuǎn)場(chǎng)語(yǔ)音，圖像識(shí)別，人臉識(shí)別，虹膜識(shí)別，聲紋識(shí)別的技術(shù)巧妙并有機(jī)的結(jié)合在一起，并將技術(shù)的本質(zhì)和與人為本的宗旨完美的結(jié)合，讓我們拭目以待。

文章來(lái)源：中國(guó)投影網(wǎng) ©版權(quán)所有。未經(jīng)許可，不得轉(zhuǎn)載。