機(jī)器視覺:機(jī)器的機(jī)器視覺"需要怎樣的視覺感知能力
無論明與暗,無論光與影,也無論萬水千山還是滄海桑田,在我們的鏡頭里都是數(shù)字與數(shù)據(jù)。讓機(jī)器睜開眼睛看世界……
前期討論了“機(jī)器的機(jī)器視覺”研究的最終目標(biāo)和實(shí)現(xiàn)路徑。其中,“機(jī)器的機(jī)器視覺”的最終目標(biāo)概括為以下三項(xiàng):
1、被動式、實(shí)時、高精度、低功耗的三維圖像生成能力;
2、被視物體和場景的空間及運(yùn)動的快速感知和智能識別能力;
3、所見即所得的自動視覺學(xué)習(xí)、歸納、總結(jié)的能力。
以上三項(xiàng)目標(biāo)的實(shí)現(xiàn)路徑為按照前后順序,依次完成。同時,前文還重點(diǎn)討論了機(jī)器視覺的三維圖像生成能力是“機(jī)器的機(jī)器視覺”實(shí)現(xiàn)的前提和必要條件。
既然三維圖像生成能力是“機(jī)器的機(jī)器視覺”實(shí)現(xiàn)的前提和必要條件,那現(xiàn)有的機(jī)器視覺的三維圖像生成能力能否滿足“機(jī)器的機(jī)器視覺”的需要,如果不滿足采用什么樣的技術(shù)方式和技術(shù)路線能夠?qū)崿F(xiàn)“機(jī)器的機(jī)器視覺”的三維圖像生成能力?“機(jī)器的機(jī)器視覺”的三維圖像生成能力的最終目標(biāo)是什么?以上問題就是本篇重點(diǎn)討論的問題。
?
1“機(jī)器的機(jī)器視覺”的三維圖像生成能力的目標(biāo)
按照前期的思路,在談?wù)摗皺C(jī)器的機(jī)器視覺”的時候,首先用人眼作為參照,給“機(jī)器的機(jī)器視覺”提出了三個遠(yuǎn)大的理想和奮斗目標(biāo),所以,在討論“機(jī)器的機(jī)器視覺”的三維圖像生成能力的時候,我們還是以人眼作為參考,給它訂立一個相對容易實(shí)現(xiàn)的小目標(biāo)。我們認(rèn)為,“機(jī)器眼”或稱“機(jī)器的機(jī)器視覺”在視覺生成方面的努力方向和奮斗目標(biāo)應(yīng)該像智慧生物的眼睛一樣,具備以下幾項(xiàng)功能:
1、成像過程的自動化;
“機(jī)器眼”的三維成像過程必須實(shí)現(xiàn)高速全自動,該過程包括:圖像采集、圖像預(yù)處理、圖像傳輸、圖像三維運(yùn)算、圖像顯示、數(shù)據(jù)存儲等,以上過程的自動化是一個復(fù)雜的系統(tǒng)工程,可能涉及的技術(shù)包括:自動調(diào)焦、自動曝光控制、圖像預(yù)處理和自適應(yīng)算法、圖像壓縮、高速采集和傳輸通訊、三維自動生成、圖像存儲等等,以上過程的全自動,需要付出極大努力。同時,成像過程的自動化還包含另一層更重要的意思,就是無論何時、無論何地、無論拍的對象是啥、無論任何拍照環(huán)境,都能自動完成三維成像。
2、生成數(shù)據(jù)的三維化;
“機(jī)器眼”的最終輸出數(shù)據(jù)一定是包含三維尺寸的數(shù)據(jù)或表示三維空間幾何的結(jié)構(gòu)化數(shù)據(jù),同時,還需要有表面紋理特征的相關(guān)數(shù)據(jù),以及其它與視覺相關(guān)的數(shù)據(jù)。只有基于三維數(shù)據(jù)的“機(jī)器眼”,才能在后續(xù)的視覺識別和視覺理解方面最終達(dá)到智慧生物的水平。
3、生成過程的實(shí)時化;
“機(jī)器眼”的三維成像過程的采樣速度要求應(yīng)該不低于人眼的每秒24幀,目前,二維圖像的技術(shù)指標(biāo)已經(jīng)超過該指標(biāo),但在三維快速成像和建模方面還有很大差距。
?4、生成方法的被動化;
“機(jī)器眼”的三維成像方式應(yīng)該像智慧生物一樣采用被動成像方式,在智慧生物中,除了在完全黑暗環(huán)境下生存的蝙蝠采用主動超聲波進(jìn)行空間和物體的識別,絕大多數(shù)生物都采用簡單可靠的被動光學(xué)成像方式形成視覺,其道理在于被動成像具有低能耗、結(jié)構(gòu)簡單、隱蔽性好的特點(diǎn),而機(jī)器視覺技術(shù)當(dāng)前還很難做到這一點(diǎn)。以無人汽車為例,目前廣泛采用多線激光雷達(dá)進(jìn)行空間感知,這種方式容易對外界產(chǎn)生干擾,相互之間也會產(chǎn)生干擾,同時設(shè)備昂貴復(fù)雜。對于“機(jī)器眼”采用電磁波、激光、紅外光等主動成像方式用于三維成像時,可以在一些特定場合下作為被動成像的一個替代,最佳選擇應(yīng)該還是首選被動成像。
5、生成算法的通用化;
“機(jī)器眼”在三維成像時,為了滿足對全自動成像的要求,自動適應(yīng)各類環(huán)境和光照條件,需要三維運(yùn)算實(shí)現(xiàn)通用化,在不同場景、不同被視物、不同光照條件下都能夠自動完成三維成像。就像工業(yè)傳感器一樣,只要接上電源,就可以通過標(biāo)準(zhǔn)輸出接口,采集到傳感器的測量數(shù)據(jù),無需另外編制專用程序和采用其它各類不同的輔助措施完成三維成像。
?6、生成結(jié)構(gòu)的小型化。
“機(jī)器眼”的三維成像系統(tǒng),需要實(shí)現(xiàn)集成化和小型化。目前,手機(jī)拍照已經(jīng)基本實(shí)現(xiàn)集成和小型化,但是還未具備三維圖像的采集和輸出功能。一般利用平面圖像進(jìn)行三維空間解算或采用掃描或結(jié)構(gòu)光方式進(jìn)行三維運(yùn)算,需要耗費(fèi)大量運(yùn)算資源,基本都需要與臺式計(jì)算機(jī)或服務(wù)器相連接,前端圖像采集和后端三維運(yùn)算設(shè)備硬件龐雜,體積大,難以實(shí)現(xiàn)小型化。現(xiàn)在為加快運(yùn)算速度,降低對服務(wù)器資源的依賴,流行的做法是采用GPU、FPGA等芯片進(jìn)行并行運(yùn)算,可有效減少硬件資源。未來由于三維運(yùn)算的通用算法出現(xiàn),為開發(fā)專業(yè)三維運(yùn)算芯片提供了有利條件,有了三維運(yùn)算芯片,就可以實(shí)現(xiàn)“機(jī)器眼”的三維嵌入式運(yùn)算和結(jié)構(gòu)的小型化。
?
以上6項(xiàng)要求和目標(biāo),是實(shí)現(xiàn)“機(jī)器眼”的必由之路,在技術(shù)飛速發(fā)展的今天,這六項(xiàng)要求有些已經(jīng)不同程度的局部實(shí)現(xiàn),還有些經(jīng)過努力可以在不遠(yuǎn)的將來得到實(shí)現(xiàn)。上述6項(xiàng)要求的核心是三維運(yùn)算的通用化,當(dāng)實(shí)現(xiàn)了這個主目標(biāo)后,其它次級目標(biāo)就會相對容易完成和實(shí)現(xiàn)。
?
2現(xiàn)有機(jī)器視覺的三維圖像生成能力綜述
既然三維運(yùn)算實(shí)現(xiàn)通用化是“機(jī)器眼”或“機(jī)器的機(jī)器視覺”獲得三維感知的必要條件,我們就需要分析一下現(xiàn)有機(jī)器視覺技術(shù)在三維感知上具有哪些技術(shù)手段?這些技術(shù)存在哪些技術(shù)上的優(yōu)勢和短板?我們需要選擇哪條技術(shù)路線可以實(shí)現(xiàn)三維運(yùn)算的通用化??
?
目前,機(jī)器視覺技術(shù)可以產(chǎn)生三維數(shù)據(jù)的大致有以下幾種手段:
?
⒈ ?來自激光測距原理的激光掃描儀和激光雷達(dá)
?
該類技術(shù)和應(yīng)用已十分成熟,例如,激光測距、激光掃描、激光雷達(dá)等,這些設(shè)備的三維生成是基于單點(diǎn)位移傳感器的距離測量,同時依靠高速旋轉(zhuǎn)和高速數(shù)據(jù)采集而產(chǎn)生三維數(shù)據(jù),用于物體外部輪廓測量和距離測量等,廣泛應(yīng)用于逆向工程、三維檢測和重現(xiàn)、無人汽車、自動測量等。
?
激光掃描儀和激光雷達(dá)在三維生成方面的缺點(diǎn)是對被測物不能從整體上快速全面的把握其形貌特征,掃描時間長,不能適應(yīng)動態(tài)測量的要求,數(shù)據(jù)量大,三維空間運(yùn)算需要耗費(fèi)大量計(jì)算資源,且大多需要人工干預(yù),難以滿足自動檢測和在線檢測的要求。由于激光掃描儀和激光雷達(dá)三維點(diǎn)云數(shù)據(jù)量大,占用大量存儲空間,一般用于精細(xì)三維建模,不適用于及時三維識別,不能實(shí)現(xiàn)快速匹配和三維數(shù)據(jù)檢索。
⒉ ? ?光截圖三維測量技術(shù)
光截圖三維測量技術(shù)是通過線激光建立激光平面,將三維問題變?yōu)槎S問題降維進(jìn)行解決。該技術(shù)的測量過程是由一個線激光發(fā)生器產(chǎn)生一個激光平面,通過與該平面成一定角度布置的數(shù)字?jǐn)z像機(jī)成像后,對圖像進(jìn)行二值化處理,得到被測物體與該激光線交線的圖像,該激光平面與二維圖像像素之間具有唯一的對應(yīng)關(guān)系,通過標(biāo)定可實(shí)現(xiàn)該物體激光切線的三維空間尺寸的精確測量。
該類檢測技術(shù)適用于特定場合和特定物體的高速在線三維尺寸測量,其在三維生成方面的缺點(diǎn)是只針對獨(dú)立的激光平面,不能整體把握被視物的三維特征,使用范圍和測量范圍有限,需要提前進(jìn)行標(biāo)定,對測量物和測量環(huán)境有特定的要求,激光對被測物有干擾。
⒊ ? ?雙目視覺測量技術(shù)
人眼之所以能夠快速判斷被視物體的遠(yuǎn)近和大小,是由于人類擁有固定間距同時可動態(tài)調(diào)焦調(diào)角度的兩只眼睛,同時還擁有一個圖像處理運(yùn)算速度目前最快速的計(jì)算機(jī)都難以企及的大腦的緣故。如果有兩只固定距離和焦距的相機(jī)對同一物體同時成像,其兩個圖像上的成像點(diǎn)位置與被測物上的測量點(diǎn),存在著唯一的對應(yīng)關(guān)系,按照兩個圖像的之間的視差進(jìn)行計(jì)算就可以獲得被視物測量點(diǎn)的三維空間位置坐標(biāo),這就是雙目視覺測量原理。目前3D電影基本采用該方法進(jìn)行拍攝和立體重現(xiàn)。
使用雙目相機(jī)進(jìn)行三維生成目前是最熱門的研究項(xiàng)目,該技術(shù)最早來源于航空測量的相關(guān)技術(shù),在航測過程中,相機(jī)相當(dāng)于在空中進(jìn)行平行移動,對于連續(xù)拍攝的兩張圖像來說,就相當(dāng)于平行雙目相機(jī)測量系統(tǒng),但在實(shí)際三維生成過程中,一般圖像匹配運(yùn)算量大,且雙目匹配的匹配點(diǎn)存在大量和普遍的歧義性,且無法自動消除,需要人工手動干預(yù)來實(shí)現(xiàn)三維建模,該方法無法實(shí)現(xiàn)三維的自動生成。
?
使用雙目三維測量比激光測量來說有一些優(yōu)點(diǎn),該技術(shù)可以從整體上對被測物三維空間結(jié)構(gòu)進(jìn)行把握,測量屬于被動式測量,對環(huán)境無不良干擾和擾動,在三維生成后,被測物的整體輪廓和細(xì)部特征相對誤差小,而且,可以從紋理上對被測物進(jìn)行區(qū)分,這些特點(diǎn)是單點(diǎn)激光、結(jié)構(gòu)光以及其它依靠單點(diǎn)激光的三維設(shè)備所不具備的。
?4、雙目視覺+結(jié)構(gòu)光等三維測量技術(shù)
為了消除雙目匹配的歧義性,實(shí)現(xiàn)雙目視覺的三維自動生成,目前,許多廠家進(jìn)行了研究,利用結(jié)構(gòu)光與雙目視覺相結(jié)合的方式,解決了匹配的歧義性問題,實(shí)現(xiàn)了三維自動生成。常用的結(jié)構(gòu)光一般采用遠(yuǎn)紅外不可見光,或其它安全級別的激光。這樣的結(jié)構(gòu)光在被視物表面形成便于自動雙目匹配的光斑,極大地消除了雙目匹配的歧義,實(shí)現(xiàn)了高速自動的深度檢測和三維檢測。
?
還有就是采用激光、紅外線飛行時間TOF進(jìn)行三維測量的設(shè)備,采用多次不同焦距曝光的三維測量的設(shè)備以及采用其它方式的三維測量的設(shè)備。以上這些方式都是近來逐步發(fā)展起來的三維自動生成的技術(shù)方法,這些方法都是為了解決三維生成的實(shí)時性和通用性問題,具有一定的技術(shù)先進(jìn)性和領(lǐng)先性。
?
但如果用前述“機(jī)器眼”三維生成的六項(xiàng)目標(biāo)進(jìn)行對照的話,這些技術(shù)還存在一些明顯的缺陷和問題。產(chǎn)生問題的主要原因是以上方法都是采用主動成像的方式,由于采用激光或遠(yuǎn)紅外光等作為主動成像的輔助手段而帶來一系列的問題。
?
首先,采用結(jié)構(gòu)光等主動成像方式在室外陽光下使用時,可對成像造成強(qiáng)烈干擾,不能滿足成像質(zhì)量要求;其次,這些方式要求被測物對結(jié)構(gòu)光或激光有良好的反射性能,對于吸光面、大曲面、強(qiáng)反射光滑面,不能形成良好反射,影響檢測效果;第三,當(dāng)激光功率太小時,測量深度會減小,測量精度會下降,當(dāng)激光功率加大時,又容易造成使用者或被測物的傷害;第四,采用結(jié)構(gòu)光等主動成像方式只能是在結(jié)構(gòu)光照到的位置進(jìn)行檢測,對于結(jié)構(gòu)光之間的空隙,無法形成三維測量數(shù)據(jù),所以,該類方法無法做到對被測物細(xì)部特征的三維成像;第五,由于結(jié)構(gòu)光照到的部位和其它照不到的位置在成像時的高對比度要求,使被測物的顏色和紋理無法同步測量和展示。
?
分析以上幾種三維成像方式,采用基于雙目視覺測量技術(shù)中的被動式純光學(xué)成像的技術(shù),是最符合“機(jī)器眼”三維成像目標(biāo)要求的技術(shù)。在該技術(shù)的基礎(chǔ)上,如何有效克服歧義性,實(shí)現(xiàn)全自動三維成像,是三維成像技術(shù)亟待解決的問題。
?
3通用式三維即時成像技術(shù)
?
北京清影機(jī)器視覺技術(shù)有限公司通過完全自主創(chuàng)新,自行開發(fā)完成“通用式三維即時視覺傳感技術(shù)”,研制成功具有通用視覺的三維“多目慧眼”。目前,“多目慧眼”首先實(shí)現(xiàn)的是自動三維“感覺”,在秒級以內(nèi)自動獲得被視場景的三維影像,其下步的目標(biāo)就是“知道”。我們今后的目標(biāo),就是依托“多目慧眼”的自動三維視覺感知能力,最終實(shí)現(xiàn)“機(jī)器的機(jī)器視覺”。
?
(多目慧眼視頻呈現(xiàn)效果)
“通用式三維即時視覺傳感技術(shù)”是在綜合分析了現(xiàn)有三維圖像技術(shù)線路的基礎(chǔ)上,采用基于雙目視覺測量技術(shù)中的純光學(xué)成像原理,采用多相機(jī)矩陣的硬件結(jié)構(gòu),通過空間幾何分析對矩陣相機(jī)之間的圖像進(jìn)行關(guān)聯(lián)匹配運(yùn)算,從而自動消除匹配過程的歧義性,實(shí)現(xiàn)高速、通用、被動的三維成像。
?
“通用式三維即時視覺傳感技術(shù)”已經(jīng)基本實(shí)現(xiàn)了“機(jī)器眼”的三維自動感知的六項(xiàng)目標(biāo),是實(shí)現(xiàn)“機(jī)器的機(jī)器視覺”的最佳可行之路。
?