利用深度學(xué)習(xí)和計算機(jī)視覺分析臉部表情
發(fā)布時間:2017-07-20 來源:Gordon Cooper 責(zé)任編輯:wenwei
【導(dǎo)讀】深度學(xué)習(xí)技術(shù)對于降低計算機(jī)視覺辨識和分類的錯誤率展現(xiàn)出巨大的優(yōu)勢。在嵌入式系統(tǒng)中實施深度神經(jīng)網(wǎng)絡(luò)有助于機(jī)器透過視覺解讀臉部表情,并達(dá)到類似人類的準(zhǔn)確度。
辨別臉部表情和情緒是人類社會互動早期階段中一項基本且非常重要的技能。人類可以觀察一個人的臉部,并且快速辨識常見的情緒:怒、喜、驚、厭、悲、恐。將這一技能傳達(dá)給機(jī)器是一項復(fù)雜的任務(wù)。研究人員經(jīng)過幾十年的工程設(shè)計,試圖編寫出能夠準(zhǔn)確辨識一項特征的計算機(jī)程序,但仍必須不斷地反復(fù)嘗試,才能辨識出僅有細(xì)微差別的特征。
那么,如果不對機(jī)器進(jìn)行編程,而是直接教機(jī)器精確地辨識情緒,這樣是否可行呢?
深度學(xué)習(xí)(deep learning)技術(shù)對于降低計算機(jī)視覺(computer vision)辨識和分類的錯誤率展現(xiàn)出巨大的優(yōu)勢。在嵌入式系統(tǒng)中實施深度神經(jīng)網(wǎng)絡(luò)(見圖1)有助于機(jī)器透過視覺解讀臉部表情,并達(dá)到類似人類的準(zhǔn)確度。
圖1:深度神經(jīng)網(wǎng)絡(luò)的簡單例子
神經(jīng)網(wǎng)絡(luò)可經(jīng)由訓(xùn)練而辨識出模式,而且如果它擁有輸入輸出層以及至少一個隱藏的中間層,則被認(rèn)為具有「深度」辨識能力。每個節(jié)點從上一層中多個節(jié)點的加權(quán)輸入值而計算出來。這些加權(quán)值可經(jīng)過調(diào)整而執(zhí)行特別的影像辨識任務(wù)。這稱為神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程。
例如,為了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)辨識面帶開心笑臉的照片,我們向其展示開心的圖片作為輸入層上的原始數(shù)據(jù)(影像畫素)。由于知道結(jié)果是開心,網(wǎng)絡(luò)就會辨識圖片中的模式,并調(diào)整節(jié)點加權(quán),盡可能地減少開心類別圖片的錯誤。每個顯示出開心表情并帶有批注的新圖片都有助于優(yōu)化圖片權(quán)重。藉由充份的輸入信息與訓(xùn)練,網(wǎng)絡(luò)可以攝入不帶標(biāo)記的圖片,并且準(zhǔn)確地分析和辨識與開心表情相對應(yīng)的模式。
深度神經(jīng)網(wǎng)絡(luò)需要大量的運算能力,用于計算所有這些互連節(jié)點的加權(quán)值。此外,數(shù)據(jù)存儲器和高效的數(shù)據(jù)移動也很重要。卷積神經(jīng)網(wǎng)絡(luò)(CNN)(見圖2)是目前針對視覺實施深度神經(jīng)網(wǎng)絡(luò)中實現(xiàn)效率最高的先進(jìn)技術(shù)。CNN之所以效率更高,原因是這些網(wǎng)絡(luò)能夠重復(fù)使用圖片間的大量權(quán)重數(shù)據(jù)。它們利用數(shù)據(jù)的二維(2D)輸入結(jié)構(gòu)減少重復(fù)運算。
*圖2:用于臉部分析的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(示意圖) *
實施用于臉部分析的CNN需要兩個獨特且互相獨立的階段。第一個是訓(xùn)練階段,第二個是部署階段。
訓(xùn)練階段(見圖3)需要一種深度學(xué)習(xí)架構(gòu)——例如,Caffe或TensorFlow——它采用中央處理器(CPU)和繪圖處理器(GPU)進(jìn)行訓(xùn)練計算,并提供架構(gòu)使用知識。這些架構(gòu)通常提供可用作起點的CNN圖形范例。深度學(xué)習(xí)架構(gòu)可對圖形進(jìn)行微調(diào)。為了實現(xiàn)盡可能最佳的精確度,可以增加、移除或修改分層。
圖3:CNN訓(xùn)練階段
在訓(xùn)練階段的一個最大挑戰(zhàn)是尋找標(biāo)記正確的數(shù)據(jù)集,以對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。深度網(wǎng)絡(luò)的精確度高度依賴于訓(xùn)練數(shù)據(jù)的分布和質(zhì)量。臉部分析必須考慮的多個選項是來自「臉部表情辨識挑戰(zhàn)賽」(FREC)的情感標(biāo)注數(shù)據(jù)集和來自VicarVision (VV)的多標(biāo)注私有數(shù)據(jù)集。
針對實時嵌入式設(shè)計,部署階段(見圖4)可實施在嵌入式視覺處理器上,例如帶有可編程CNN引擎的Synopsys DesignWare EV6x嵌入式視覺處理器。嵌入式視覺處理器是均衡性能和小面積以及更低功耗關(guān)系的最佳選擇。
圖4:CNN部署階段
雖然標(biāo)量單元和向量單元都采用C和OpenCL C(用于實現(xiàn)向量化)進(jìn)行編程設(shè)計,但CNN引擎不必手動編程設(shè)計。來自訓(xùn)練階段的最終圖形和權(quán)重(系數(shù))可以傳送到CNN映射工具中,而嵌入式視覺處理器的CNN引擎則可經(jīng)由配置而隨時用于執(zhí)行臉部分析。
從攝影機(jī)和影像傳感器擷取的影像或視訊畫面被饋送至嵌入式視覺處理器。在照明條件或者臉部姿態(tài)有顯著變化的辨識場景中,CNN比較難以處理,因此,影像的預(yù)處理可以使臉部更加統(tǒng)一。先進(jìn)的嵌入式視覺處理器的異質(zhì)架構(gòu)和CNN能讓CNN引擎對影像進(jìn)行分類,而向量單元則會對下一個影像進(jìn)行預(yù)處理——光線校正、影像縮放、平面旋轉(zhuǎn)等,而標(biāo)量單元則處理決策(即如何處理CNN檢測結(jié)果)。
影像分辨率、畫面更新率、圖層數(shù)和預(yù)期的精確度都要考慮所需的平行乘積累加數(shù)量和性能要求。Synopsys帶有CNN的EV6x嵌入式視覺處理器采用28nm制程技術(shù),以800MHz的速率執(zhí)行,同時提供高達(dá)880MAC的性能。
一旦CNN經(jīng)過配置和訓(xùn)練而具備檢測情感的能力,它就可以更輕松地進(jìn)行重新配置,進(jìn)而處理臉部分析任務(wù),例如確定年齡范圍、辨識性別或種族,并且分辨發(fā)型或是否戴眼鏡。
總結(jié)
可在嵌入式視覺處理器上執(zhí)行的CNN開辟了視覺處理的新領(lǐng)域。很快地,我們周圍將會充斥著能夠解讀情感的電子產(chǎn)品,例如偵測開心情緒的玩具,以及能經(jīng)由辨識臉部表情而確定學(xué)生理解情況的電子教師。深度學(xué)習(xí)、嵌入式視覺處理和高性能CNN的結(jié)合將很快地讓這一愿景成為現(xiàn)實。
(作者簡介:Gordon Cooper,Synopsys嵌入式視覺產(chǎn)品行銷經(jīng)理)
推薦閱讀:
特別推薦
- 是否存在有關(guān) PCB 走線電感的經(jīng)驗法則?
- 一文看懂電壓轉(zhuǎn)換的級聯(lián)和混合概念
- 第12講:三菱電機(jī)高壓SiC芯片技術(shù)
- 準(zhǔn) Z 源逆變器的設(shè)計
- 貿(mào)澤電子持續(xù)擴(kuò)充工業(yè)自動化產(chǎn)品陣容
- 低功耗嵌入式設(shè)計簡介
- 如何通過基本描述找到需要的電容?
技術(shù)文章更多>>
- 瑞典名企Roxtec助力構(gòu)建安全防線
- 貿(mào)澤與Cinch聯(lián)手發(fā)布全新電子書深入探討惡劣環(huán)境中的連接應(yīng)用
- 第二十二屆中國國際軟件合作洽談會在成都順利舉行
- 混合信號示波器的原理和應(yīng)用
- 功率器件熱設(shè)計基礎(chǔ)(十)——功率半導(dǎo)體器件的結(jié)構(gòu)函數(shù)
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
空心線圈
控制變壓器
控制模塊
藍(lán)牙
藍(lán)牙4.0
藍(lán)牙模塊
浪涌保護(hù)器
雷度電子
鋰電池
利爾達(dá)
連接器
流量單位
漏電保護(hù)器
濾波電感
濾波器
路由器設(shè)置
鋁電解電容
鋁殼電阻
邏輯IC
馬達(dá)控制
麥克風(fēng)
脈沖變壓器
鉚接設(shè)備
夢想電子
模擬鎖相環(huán)
耐壓測試儀
逆變器
逆導(dǎo)可控硅
鎳鎘電池
鎳氫電池