機(jī)器視覺主要問題和發(fā)展瓶頸
很多人都有這樣的疑惑,就是一臺機(jī)器它為什么能看到你?因?yàn)樗辛俗约旱囊曈X。機(jī)器視覺技術(shù)是一門涉及人工智能、神經(jīng)生物學(xué)、心理物理學(xué)、計(jì)算機(jī)科學(xué)、圖像處理、模式識別等諸多領(lǐng)域的交叉學(xué)科。機(jī)器視覺主要用計(jì)算機(jī)來模擬人的視覺功能,從客觀事物的圖像中提取信息,進(jìn)行處理并加以理解,最終用于實(shí)際檢測、測量和控制,技術(shù)最大的特點(diǎn)是速度快、信息量大、功能多。
機(jī)器視覺可以看作是與人工智能和模式識別密切相關(guān)的一個(gè)子學(xué)科或子領(lǐng)域。限制機(jī)器視覺發(fā)展的瓶頸是多方面的,其中最重要的可以歸結(jié)為三個(gè)方面:計(jì)算能力不足、認(rèn)知理論未明以及精確識別與模糊特征之間的自相矛盾。
1.機(jī)器視覺面向的研究對象主要是圖像和視頻,其特點(diǎn)是數(shù)據(jù)量龐大、冗余信息多、特征空間維度高,同時(shí)考慮到真正的機(jī)器視覺面對的對象和問題的多樣性,單一的簡單特征提取算法(如顏色、空間朝向與頻率、邊界形狀等等)難以滿足算法對普適性的要求,因此在設(shè)計(jì)普適性的特征提取算法時(shí)對計(jì)算能力和存儲速度的要求是十分巨大的,這就造成了開發(fā)成本的大幅度提高。
2.如何讓機(jī)器認(rèn)知這個(gè)世界?這一問題目前沒有成熟的答案,早期的人工智能理論發(fā)展經(jīng)歷了符號主義學(xué)派、行為主義學(xué)派、連接主義學(xué)派等一系列的發(fā)展但都沒有找到令人滿意的答案,目前較新的思想認(rèn)為應(yīng)該從分析、了解和模擬人類大腦的信息處理功能去構(gòu)建智能機(jī)器視覺系統(tǒng),但神經(jīng)科學(xué)的發(fā)展目前只能做到了解和模擬大腦的一個(gè)局部,而不是整體(當(dāng)然計(jì)算能力限制也是原因之一)。事實(shí)上,我們對人是如何對一個(gè)目標(biāo)或場景進(jìn)行認(rèn)知的這一問題仍停留在定性描述而非定量描述上。
3.機(jī)器視覺系統(tǒng)經(jīng)常被人詬病的問題之一就是準(zhǔn)確性。以十年前如火如荼的人臉識別算法為例,盡管一系列看似優(yōu)秀的算法不斷問世,但目前為止在非指定大規(guī)模樣本庫下進(jìn)行人臉識別的準(zhǔn)確率仍然無法滿足實(shí)際應(yīng)用的需求,因此無法取代指紋或虹膜等近距接觸式生物特征識別方法。這一問題的出現(xiàn)并非偶然。因?yàn)槟繕?biāo)越精細(xì),越復(fù)雜,信息越大,則其模糊性和不確定性也越強(qiáng)。人類之所以能夠較好的對人臉進(jìn)行識別,其實(shí)也是以犧牲一定的準(zhǔn)確性為代價(jià)的。而機(jī)器視覺在做的事情一方面想要借鑒人腦或人眼系統(tǒng)的靈感去處理復(fù)雜而龐大的信息流,另一方面又想摒除人腦在模式識別方面存在的精確性不足的缺陷。這顯然是一種一廂情愿的做法。
綜合以上三點(diǎn),機(jī)器視覺的發(fā)展在短期內(nèi)難有重大突破,當(dāng)前的實(shí)用技術(shù)仍然還是會集中在特定性任務(wù)或特定性目標(biāo)的識別算法的開發(fā)上。