【導讀】言語是人們表達思想和愿望的一種有效方式。在工業時代到來之前,人類發現動物可以被訓練用來識別和響應讓它們執行某些任務的基本命令。
下一個合乎邏輯的發展應該是開發一種使用聲音信號與機器進行交流,并指揮機器行動的方法。近年來,以語音和音頻作為電子設備的控制界面越來越受歡迎,并且這種技術也在不斷發展,以滿足用戶的期望和新應用的要求。
在本文中,我們將解釋用語音和音頻信號控制電子設備和機器的好處,并回顧如何實現這種控制。我們還將展示這種控制界面現在可以如何能夠嵌入到離線設備,以及它們提供的音頻控制體驗如何能夠大幅度改善。
使用語音控制電子設備
采用語音控制實現與機器交互有幾個明顯好處:
●對人類來說,語音是一種直觀的交流形式,這種口頭傳達指令的方式更容易。
●即使一個人的眼睛和手正在用于其它事情,語音交流仍然可能。實時的語音控制也很方便,例如在駕車等某些應用場景下,試圖通過觸摸來控制車內其它設備是違法的。
●語音是控制機器的一種有效媒介,采用語音控制機器,可以在不需要復雜指令的情況下進行監聽和響應。
●在設備中集成語音控制能夠最大限度地減少許多設備對觸屏的需求。這對于處于遠程或便攜式電池供電設備來說尤其理想,在這些設備中,減小尺寸和降低功耗是常見的設計挑戰。對于具有多個用戶的應用來說,去掉觸屏控制也更加符合衛生要求。
●如圖1所示,對于某些殘疾人來說,觸屏控制可能是一種不現實的選擇,因而語音可以成為一種有效的支持工具。通過語音與機器進行交互可用于執行諸如開門之類的任務,或者通過遠程通信來傳輸個人最近的健康狀況。
圖1:聲控機器人助手。(來源:Shutterstock的PaO_STUDIO)
語音控制設備的音頻前端(AFE)包括麥克風陣列和信號處理模塊。AFE能夠處理來自多通道麥克風陣列的信號,以消除任何背景噪聲或設備本身回放產生的干擾。然后,該信號被發送到“喚醒詞(wake-word)”檢測引擎,例如經過在設備上預先編程,可識別出“Alexa”或“OK Google”等單詞。通過使用多種信號處理算法,能夠消除多種不需要的干擾信號。語音控制解決方案的組成部分包括:
麥克風陣列:語音激活系統需要一個或多個麥克風來捕獲音頻控制信號。在選擇麥克風陣列時,重要的考慮因素包括尺寸、成本、性能和穩健性。優化組合來自多麥克風陣列的不同信號有助于提高音頻信號鏈的信噪比(SNR)。
到達方向(DoA)檢測器:用于確定用戶相對于被控設備的位置,以便麥克風陣列可以將波束調整為語音的方向。
波束成形器:它接受來自DoA檢測器的聲音,同時去除來自其他方向的聲音。其性能取決于麥克風陣列的幾何形狀、SNR以及波束寬度和背景噪聲水平等。
聲學回聲消除器(AEC):它會消除設備揚聲器本身的播放信號(例如,設備揚聲器正在播放音樂時收到語音指令),以便清晰地拾取用戶語音指令。
自適應干擾消除器(AIC):它能夠消除來自其他聲音源的外部噪聲,這些噪聲很難用傳統的波束成形器消除,例如,其他設備產生的較大噪聲。
喚醒詞檢測器:將來自AFE的經過處理語音信號與喚醒詞庫進行比較,例如可使用喚醒詞檢測算法的“Hey Google”,這種算法通常是機器學習模型的一部分。更大的模型則更準確,例如,1MB訓練模型比64kB模型更準確,但處理強度更大。需要大的喚醒詞模型來準確地檢測喚醒詞,從而減少錯誤警報的數量。
D類音頻放大器
該控制界面的語音處理部分經過大量開發,現在即使是低成本的設備也能提供準確的語音識別能力。然而,界面的音頻端受到的關注明顯較少,這意味著與高端音頻設備相比,許多早期智能揚聲器和其他支持音頻的物聯網(IoT)設備所產生的音質較差。
與語音控制相關的任何新產品都可能被認為分散了人們對這些缺點的關注。然而,隨著智能設備越來越廣泛采用,消費者對其提供的音頻體驗期望也越來越高。傳統AB類音頻放大器的低效率使其無法用于低功率物聯網設備,幸運的是,幾家芯片制造商最近推出了一系列高級D類音頻放大器,體現了對以前可用音頻放大器的重大改進,其中許多產品都是專門為在智能技術和物聯網設備中實現高品質音頻而開發。
德州儀器 (Texas Instruments)的TAS2770 15W輸入音頻放大器能夠提高響度和音頻質量,它具有更強的語音捕獲能力,意味著語音控制設備的操作更容易、更自然。Maxim Integrated(現在屬于Analog Devices旗下品牌)開發了MAX98357 和MAX98358 D類放大器,效率達到92%,可提供3.2W的AB類音頻性能,這些放大器的簡化框圖如圖2所示。Diodes Incorporated的PAM8106具有較低功耗,使其能夠在由1.5V鉛酸電池和3.5V鋰離子電池驅動的設備中很好地運行。
圖2:Maxim Integrated D類音頻放大器簡化框圖。(來源:Maxim Integrated)
離線語音控制
亞馬遜的Alexa和谷歌助手(Google Assistant)等基于云的解決方案很容易用于具有穩定互聯網連接的設備,但對于那些沒有穩定互聯網或根本沒有連接的設備來說,離線語音控制則是一個更好的解決方案。例如,如果某個產品需要響應簡單的單詞指令,如go、stop、reset等(通常稱為關鍵字識別),那么在設備本身進行本地處理則很有意義。使用低成本的嵌入式微控制器可以實現簡單的關鍵字指令系統,例如可使用恩智浦(NXP)基于EdgeReady MCU的離線本地語音控制解決方案。它采用i.MX RT交叉MCU,開發人員能夠快速將語音控制集成到他們的產品中。恩智浦基于i.MX RT106S的解決方案包括SLN-LOCAL2-IOT開發工具包,如圖3所示。
該開發工具包配備了在FreeRTOS上運行的全部集成軟件,并提供有軟件開發工具包(SDK),以便快速驗證概念。離線語音控制也有助于解決許多消費者的隱私問題,因為他們擔心自己的系統容易受到在線黑客的攻擊。
圖3:恩智浦的SLN-LOCAL2-IOT離線語音控制解決方案。(來源:恩智浦)
結論
語音和音頻正在快速成為許多智能設備的首選控制界面,這種技術尤其適合在低功耗和便攜式物聯網設備中使用,因為它能夠消除對昂貴且耗電的數字顯示器的要求。許多早期系統的音頻質量較差,只能使用云連接解決方案來實現。
然而,隨著新一代高效D類音頻放大器的出現,使制造商能夠確保其設備為消費者提供高質量的音頻體驗。而且現在也可提供一些其它解決方案,能夠在互聯網連接不穩定或根本沒有互聯網連接的情況下實現設備的語音控制。這些創新表明,隨著人們越來越習慣這種控制界面,語音控制技術有能力適應新的需求,而且這種發展趨勢還會不斷繼續。
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯系小編進行處理。
推薦閱讀: