在1日舉辦的“全球思想盛筵-人工智能與人類文明”上,圖靈獎獲得者、美國國家科學院院士、美國國家工程院院士John E. Hopcroft發(fā)表主題演講,稱機器學習將推動下一次工業(yè)革命的到來。下面就隨網絡通信小編一起來了解一下相關內容吧。
John E. Hopcroft認為,人工智能的許多項目還不能提取一個物品的本質,或者是理解物品的根本功能以及其他重要方面。所以要想真正的具有全智能性還需要再進行一次革命,讓我們看到一個物品能夠立刻理解。
John E. Hopcroft表示,AI現(xiàn)在還處在一個比較早期的階段,下一步可能還要花一段時間才能夠實現(xiàn)。AI不是唯一一個在驅動革命進程的一個技術基礎。大數據能力、互聯(lián)網、云計算、物聯(lián)網等等都提供了可用數據,這些都是驅動因素。我們需要做的事情就是去決定哪些靈域是合適的,哪些是不合適進入的。
在演講的最后John E. Hopcroft建言年輕人,考慮事業(yè)的時候要面向未來,這樣才會有更美好的明天。(澤宇)
以下為John E. Hopcroft演講實錄:
非常高興出席今天下午的盛會,我的主題就是人工智能技術的前沿領域,此次人工智能不僅影響了工業(yè)也影響了農業(yè),首先我們發(fā)現(xiàn)在工業(yè)革命的時候所有的體力活都進行了自動化,這改變了整個社會和生活的運作模式。大家面臨這樣的問題,人類是不是能夠完成我們所需要的所有的食物和服務?工業(yè)革命這是我們思考的一個主題。
今天我想和大家分享的就是人工智能AI,它的背后是機器學習,因為機器學習會推動下一次工業(yè)革命的到來。機器學習在過去的10到15年間,我們主要關注的是監(jiān)督式學習,我們會去培訓所有的數據和一些標簽式數據,現(xiàn)在我們轉了一個方向做非監(jiān)督式的學習。在這樣大的背景下,包括圖像識別,舉個例子我們走到一家商場中這個商場可以確定你需要什么樣的產品,你是誰,可能還會幫我們找到一瓶我們需要的飲品,同樣我們也關注語音識別,比如給公司打電話可以直接給我們轉接到真人,這些日常生活場景都是通過自然語言處理實現(xiàn)的,我們可以閱讀這些文件和包括找到酒店信息,這些閱讀量哪些是有效的,大概50%都是非自然語言處理。
在美國我們通過立法之前通常有那么一段時期所有的公民都有權利和機遇提供他們的建議為該法提供建議。我們會有2萬條相關的建議,但是政府既不能忽略也不能全讀一遍,所以我們需要一些機器找到一些正面、負面的意見進行篩選。
同時我們也考慮到了無人駕駛,在美國總共有350萬人工駕駛和相應的司機他們會失去職業(yè),我小時候非常喜歡拉杠桿,比如當我們學習了整個簡單的電梯的運行原理之后就不需要這樣的服務人員了。其實自動駕駛一開始要從卡車開始,比如現(xiàn)在卡車司機在美國的話,他只能每天開一段時間,是有時間限制的,假如說自動駕駛的卡車的話,卡車可以24小時開著不停。也許這會降低某些工種,但是同時也降低了生產卡車的數量,那背后的影響會涉及社會的方方面面。
現(xiàn)在,亞馬遜在布局自己的智能倉庫,也就是說我們在進入一家倉儲式購物中心的時候自己進行遴選和結算。背后的助力是什么?就是人工智能。我簡單和大家介紹一下人工智能的一些基本點。
首先在40年代的時候一位叫皮特斯的專家提出了神經元的理論,從40年代開始到現(xiàn)在,尤其在2022年會有什么事情發(fā)生?我們看未來的場景,在做圖片識別的時候,在圖片識別場景中有12億收集到的圖片在當時我們可以寫一個電腦程序,我們會設計一些任務的模型來判斷究竟我們的算法怎么樣去處理這些數據和模型。在2012年的時候,當時的錯誤率是15%,2013年只是提高了0.2%,到2014年的時候錯誤率降到了6%。其實和2013年相比是一個重大的進步,這也鼓勵大家利用深度學習在各個行業(yè)去實踐,成果也是斐然的。包括金融和其他的一些社會行業(yè)。
但是當時大家似乎不明白深度學習背后的邏輯,這就是為什么后續(xù)我們有很多這樣的基礎工作,又過了兩年谷歌地圖將錯誤率降到3.57%。最后我們去對比人類的錯誤和機器的錯誤,其實人類錯誤保持在5%,此時機器就超越了人類。
這個時間節(jié)點上我們的網絡可以不斷的生成,可以生成為幾千個層級,監(jiān)督式學習下我們加入一個圖片,在最后把圖片進行分類,有人會想做一些不同的嘗試,他們首先選擇一張圖片讓網絡通過訓練能重新生成圖片,通過圖片的生成我們可以了解在中間這些層級上他們會以更好的方式表現(xiàn)原圖。在這個節(jié)點上,我們有很多生成,假如說這個圖片是一只貓,沒有人教這個程序什么是貓,這個程序自己決定了這是一只貓,它做出了準確的一個選擇,這就是非監(jiān)督式學習的成果。
同時,還想跟大家介紹一下,在現(xiàn)代生活中的人們,我們感受到一個強烈的影響那就是生成對抗式網絡。現(xiàn)在我們在寫程序的時候希望加入一些圖片,比如說我們想要輸入一張貓的圖片,想要生成這樣的圖片,但是有時候生成的情況非常不佳,所以工程師首先就找到了一個圖片的篩選器當你提供一張圖片的時候,不管是真實的還是合成的圖片它都可以加以判斷。同時這兩個對抗網絡平行運行,你把圖片生成器輸入圖片,此時的區(qū)別器無法區(qū)別真實的圖片和加工的圖片,但是通過反復的實驗,圖片的生成器可以生成一個最終合理圖片,可能聽上去非??菰?,只是生成圖片罷了。
那么我們看看怎么生成翻譯?通過A語言到B語言,比如從英文到德語,現(xiàn)在傳統(tǒng)的做法就是找到很多文本,這些文本可能是雙語的文本都能夠收集,我們來生成翻譯的文本,現(xiàn)在我們怎么做?我們去培訓一個網絡,它們在網上找到英語的原語,提供相關的德國語相對的單詞,不是一個句子,同時培訓這個區(qū)分儀,找到這個鑒別器進行鑒別和培訓,然后你再找到另一個鑒別器,它輸入一些德語,然后生成一些句子,再然后你將這所有的要義都一塊進行培訓,然后就可以讓它實現(xiàn)德語到英語這樣的一個翻譯功能。
怎么去還原成英文呢?就是利用鑒別器返回到英文,這些都是德英互譯,通過鑒別器實現(xiàn)的功能。
我們能做什么?假設我們有兩個任務,你可以同時訓練兩大網絡,可能大家會問這兩大任務有什么共同點嗎?你需要做的事情可能就是其中兩大網絡會有一定的分享,如果你對整個網絡進行培訓的話,比如說這里這個點,它會了解到兩個任務之間的交集,下面的這些點能夠學習到第一個任務具體特殊地方在哪里。我畫了這張圖就是希望給大家展示一下,我們如何能夠利用這樣的一些訓練網絡?
為了保證我不超時,我講快一點當你訓練這些深度網絡的時候會發(fā)現(xiàn)它們有很多局部最小值,問題是哪一個最小值是你應該采納的,哪一個數值可以給你帶來一些生成對抗能力。我們看一下人們是怎么想的,這里是你的訓練數據,上面縱軸列了訓練數據錯誤率,這是一條曲線,我這里箭頭指向了兩個極小值,兩個值不一樣,這個地方曲線非常寬,這個地方曲線非常陡,選擇哪個數值才能確定測試數字最大準確度,我建議大家選擇這個寬的,為什么呢?因為你的這個訓練數據它是隨機選擇的,從整個數據庫中隨機抽取。也就是說,我們這個數據庫的錯誤功能會和這個數據功能沒有太大的區(qū)別,而這樣的一個曲線就代表的是我們測試數據的錯誤情況。你會看到這個錯誤的發(fā)展曲線它虛線和實線有一定的區(qū)別,它的錯誤率差別并不是很大。對于較陡的這個極小值同樣的橫坐標會發(fā)現(xiàn)兩大曲線錯誤值差別很了大,很多人在這方面做了很多研究,因為人們希望能讓這兩大網絡進行壓縮,讓它們靠近。他們希望手機上就可以做深度學習,但是現(xiàn)在這樣還是有很大難度的。比如你選擇的是這樣的一個小網絡,并且希望能對它進行訓練,準確的進行分類,你會發(fā)現(xiàn)這樣的訓練是很難做的。
如果你選的比較大的深度網絡再進行訓練的話,我們看上面這里的激活空間,訓練小網絡它的激活量和上面深度學習激活量相比,明顯上面更優(yōu),所以壓縮的時候我們選擇上面的可能性更大一些。
接下來給大家介紹一下所謂的激活空間。如果這里我輸入了一張圖片,會得到一個矢量,比如有200個激活矢量板,我把這些矢量對每一個圖像設置一定的關聯(lián),然后得到這些不同的數值,我剛才談到了這里形成了這樣一張圖表,可能存在一個交錯的關聯(lián)。如果你有一個神經元,然后和它通過矢量和圖像建立聯(lián)系的話,我會在兩方激活之間反復進行交換,每一年我都會邀請中國大概30到50名學生,到美國康乃爾大學進行交流大概一個月的時間,這一個月的時間中國學生要做一些研究,這些學生一般都是剛剛完成他們第一學年的學習,其中有一個學生拍攝了他眼中的康乃爾大學。他就問康乃爾大學看起來應該是什么樣的,如果康乃爾是在中國的話這樣的大學校園應該是什么樣的?他就給我展示了他的一個藝術作品