像人腦一樣看:機器視覺的一種新形式
近年來,圖像傳感器陣列逐漸發(fā)展出一種集成神經(jīng)網(wǎng)絡(luò)的新體系結(jié)構(gòu),它可以同時采集和識別光學(xué)圖像,并且可以在不將信號轉(zhuǎn)換成數(shù)字形式的情況下使高速信息處理成為可能。
視覺是我們最重要的感受之一。雖然人類的視覺更精確、更高效,但受生物學(xué)啟發(fā)的機器視覺近十年來發(fā)展迅速,使得人工系統(tǒng)能夠“看到”世界,從圖像和視頻中獲取有價值的信息[1][2]。最近Mennel等人【3】報道了【0x9A8B】一種類似大腦的視覺系統(tǒng),經(jīng)過訓(xùn)練后可以在幾納秒內(nèi)實現(xiàn)簡單的圖像分類。
數(shù)碼相機等現(xiàn)代圖像傳感器主要基于70年代初發(fā)展起來的半導(dǎo)體(凝聚態(tài))技術(shù),可分為電荷耦合器件和有源像素傳感器兩大類。這些傳感器可以準確地捕捉來自環(huán)境的視覺信息,但它們也會產(chǎn)生大量冗余數(shù)據(jù)。這些光學(xué)信息通常被轉(zhuǎn)換成數(shù)字電子信號,并傳輸?shù)接嬎銌卧M行圖像處理。
這將導(dǎo)致傳感器和計算單元之間傳輸大量數(shù)據(jù),從而導(dǎo)致較大的功耗和延遲。隨著幀率和像素的增加,帶寬的限制使得系統(tǒng)無法將所有數(shù)據(jù)快速傳輸?shù)街醒胩幚砥骰蛟朴嬎阒行?,以支持實時處理和決策——,這對于那些對延遲敏感的應(yīng)用,如自主車、機器人、工業(yè)制造等尤為重要。
更好的解決方案是將一些計算任務(wù)遷移到計算機系統(tǒng)外圍邊界的傳感器設(shè)備,以減少不必要的數(shù)據(jù)傳輸。此外,由于傳感器通常輸出連續(xù)的模擬信號(不斷變化),模擬處理比數(shù)字處理更適合,因為模數(shù)轉(zhuǎn)換會消耗更多的時間和功率。
為了模擬大腦對信息的高效處理,生物啟發(fā)的神經(jīng)形態(tài)工程采用一種具有高度互聯(lián)元件(突觸連接神經(jīng)元)的計算架構(gòu)來實現(xiàn)并行計算(圖1a)。這些人工神經(jīng)網(wǎng)絡(luò)可以通過迭代——從周圍環(huán)境中學(xué)習(xí)。例如,他們可以通過觀察已知類的目標樣本來學(xué)習(xí)識別事物(監(jiān)督學(xué)習(xí)),或者在沒有額外信息的情況下識別輸入數(shù)據(jù)中的目標結(jié)構(gòu)(無監(jiān)督學(xué)習(xí))。在學(xué)習(xí)過程中,算法不斷進行預(yù)測,加強或削弱網(wǎng)絡(luò)中的每一個突觸,直到系統(tǒng)達到最優(yōu)設(shè)置。
內(nèi)置計算的視覺傳感器可以實現(xiàn)智能高效的預(yù)處理。
a、在傳統(tǒng)的人工智能(AI)視覺傳感器中,光學(xué)傳感器采集信號后將模擬信號轉(zhuǎn)換為數(shù)字信號(模數(shù)轉(zhuǎn)換器ADC),放大后的信號送入外部的人工神經(jīng)網(wǎng)絡(luò)(ANN,層間互聯(lián)的計算單元,圖中一個圓),其連接權(quán)值可以根據(jù)模型輸出不斷調(diào)整,這樣網(wǎng)絡(luò)就可以針對圖像分類等任務(wù)進行訓(xùn)練。ANN的輸入層接收編碼簡單物理信息的信號(圖中的點和線);后續(xù)層優(yōu)化為中間層特征(圖中簡單形狀),最終優(yōu)化結(jié)果(圖中三維形狀)在輸出層形成。整個過程耗時耗力。
b,Mennel等人【3】報道了芯片內(nèi)部互聯(lián)的傳感器(圖中的塊)不僅可以采集信號,還可以以ANN的形式識別簡單的特征,從而減少傳感器與外部電路之間冗余數(shù)據(jù)的傳輸。維也納理工大學(xué)的Mennel等人將人工神經(jīng)網(wǎng)絡(luò)直接嵌入到圖像傳感器中,他們使用只有幾個原子層的二硒化鎢光敏單元在芯片上構(gòu)建光電二極管網(wǎng)絡(luò)。這種半導(dǎo)體對光的響應(yīng)強度可以通過調(diào)節(jié)電壓來控制,因此每個二極管的靈敏度可以獨立調(diào)節(jié)。事實上,這種效應(yīng)將光電傳感器網(wǎng)絡(luò)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)(圖1b),使其可以執(zhí)行簡單的計算任務(wù)。改變光電二極管對光的響應(yīng)相當(dāng)于改變網(wǎng)絡(luò)的連接強度(突觸權(quán)重),使傳感器可以同時實現(xiàn)光信號傳感和神經(jīng)形態(tài)學(xué)計算。
這些二極管被構(gòu)造成9個像素的正方形矩陣,每個像素有三個二極管。當(dāng)圖像投射到芯片上時,二極管產(chǎn)生的不同電流一起被讀出。硬件陣列將提供模擬形式的計算:每個光電二極管產(chǎn)生的電流輸出與入射光強度成正比,入射光強度基于描述電路中電流基本規(guī)律的基爾霍夫定律在行或列方向求和。
這個陣列然后被訓(xùn)練用于特定的任務(wù)。陣列產(chǎn)生的電流信號和正確響應(yīng)給定任務(wù)的電流信號之間的差異將被片外分析,然后用于調(diào)整下一個訓(xùn)練周期的突觸權(quán)重。雖然訓(xùn)練階段會消耗大量時間和計算資源,但訓(xùn)練完成后芯片會對目標任務(wù)做出快速響應(yīng)。
基于不同的神經(jīng)網(wǎng)絡(luò)算法,構(gòu)造了兩種神經(jīng)形態(tài)函數(shù)。一種是分類:33像素陣列可以將輸入圖像分類為三個簡單的字母,在納秒時間內(nèi)識別出輸入信號對應(yīng)的字母。這個簡單的任務(wù)只是概念的證明,通過增加整列的規(guī)模可以擴展到更復(fù)雜的任務(wù)。
第二個功能實現(xiàn)自動編碼器:內(nèi)置計算的傳感器陣列,通過學(xué)習(xí)輸入圖像的主要特征,即使在有噪聲信號的情況下,也能生成其簡化的表達式形式。編碼后的表達式只包含最本質(zhì)的信息,但可以解碼重構(gòu)為接近原始輸入的圖像。
然而,在實際應(yīng)用之前,還有許多工作要做。自動駕駛系統(tǒng)和機器人的神經(jīng)形態(tài)視覺系統(tǒng)需要在三維場景中捕捉大視場的動態(tài)圖像和視頻。目前,圖像捕捉技術(shù)通常將真實的3D世界轉(zhuǎn)換成2D信息,因此失去了運動信息和深度。此外,當(dāng)前圖像傳感器陣列的平面結(jié)構(gòu)也限制了寬視場相機的發(fā)展[5]。
對于作者的系統(tǒng)來說,在低照度下成像是非常困難的,因此有必要重新設(shè)計以提高光強吸收并檢測光強的動態(tài)范圍。另外,報告中的設(shè)計需要高電壓,消耗大量能量,而生物神經(jīng)網(wǎng)絡(luò)消耗的能量是亞散焦(1015-1013焦耳)[6]。將傳感器的響應(yīng)范圍擴展到紫外和紅外波段,從而捕捉到可見光波段以外的豐富信息具有重要意義[7]。此外,實驗中使用的薄半導(dǎo)體難以大規(guī)模均勻生產(chǎn)和加工。因此,它們可以與硅電子器件集成,并應(yīng)用于讀取和反饋控制等外圍電路。這個傳感器的速度和能耗不是由圖像捕獲過程決定的,而是受到傳感器和外圍電路之間數(shù)據(jù)傳輸?shù)南拗啤km然內(nèi)置計算的傳感器單元在模擬信號域采集和計算數(shù)據(jù),降低了模數(shù)轉(zhuǎn)換的消耗,但外圍電路仍然受到固有延遲的限制。因此,傳感器和外圍電路的協(xié)同開發(fā)將進一步降低整個系統(tǒng)的延遲水平。
Mennel等人開發(fā)的內(nèi)置計算傳感器系統(tǒng)將激發(fā)更多的人工智能硬件研究。少數(shù)公司已經(jīng)開始開發(fā)基于硅電子器件的AI視覺系統(tǒng)[8],但芯片固有的數(shù)字架構(gòu)導(dǎo)致了不可避免的延遲和功耗問題。
在更大的尺度上,策略不限于視覺系統(tǒng)。它可以擴展到聽覺、觸覺、熱和嗅覺等物理輸入感知系統(tǒng)[9 -11]。這種智能系統(tǒng)的發(fā)展和5G的到來,將使實時邊緣計算(低延遲)成為可能。