11 月 19 日上午,2019 世界人工智能融合發(fā)展大會于山東濟(jì)南正式召開。大會由工業(yè)和信息化部、中國工程院、山東省人民政府指導(dǎo),由山東省工業(yè)和信息化廳、省教育廳、省科技廳、省財(cái)政廳、濟(jì)南市人民政府和新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟共同主辦。
在這場大會上,中國工程院院士、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟理事長高文;中國工程院院士、浪潮集團(tuán)首席科學(xué)家王恩東;英國皇家工程院院士、鯤云科技首席科學(xué)家陸永青;富士康工業(yè)互聯(lián)網(wǎng)董事長李軍旗等嘉賓出席,并作了主題報(bào)告。
中國工程院院士高文
以下是演講實(shí)錄:
各位專家、各位同行,各位朋友,大家好!
智能交通之所以被稱為“智能”,是因?yàn)樗梢酝ㄟ^一些技術(shù)手段來提高效率;比如,它可以知道哪條路上車多,哪條路上車少。雖然,以前的信號控制系統(tǒng)也做了很多類似工作,但那些系統(tǒng)大部分是通過地面的線圈,或是通過攝像頭采集到的信息來進(jìn)行輸入。
今天我要和大家分享的,就是將最現(xiàn)代化的傳感器和計(jì)算系統(tǒng)合在一起,去把智能交通這件事做好。
首先,我們來了解一下什么叫數(shù)字視網(wǎng)膜。實(shí)際上,數(shù)字視網(wǎng)膜本現(xiàn)在已經(jīng)形成了大規(guī)模的系統(tǒng),這個(gè)系統(tǒng)要如何把視頻“看到”的東西很好地協(xié)調(diào)起來,需要解決三個(gè)問題,一個(gè)是為什么,一個(gè)是怎么做,一個(gè)是具體的概念是什么。
從整體來講,無論是數(shù)字視網(wǎng)膜,還是圖像處理或視頻處理,都經(jīng)過了漫長的演化路徑。舉個(gè)例子,視頻處理技術(shù)剛出現(xiàn)的時(shí)候,模擬的是照相機(jī),那時(shí)大概是在 19 世紀(jì)中前期;后來,從倫敦開始,人們慢慢將這些圖像以及其傳達(dá)的內(nèi)容利用起來;一直到 19 世紀(jì)中葉計(jì)算機(jī)以后,人們開始把模擬圖像變成數(shù)字圖像,進(jìn)行處理和傳輸;到了今天,圖像處理從衛(wèi)星圖像到醫(yī)學(xué)圖像等領(lǐng)域不斷發(fā)展,甚至覆蓋了我們生活的各個(gè)方面。
以前人們在這一方面的處理能力不強(qiáng),但現(xiàn)在,攝像頭和傳感器的發(fā)展越來越好,云計(jì)算也出現(xiàn)了。以前的攝像頭現(xiàn)在成了攝像機(jī)網(wǎng)絡(luò),由幾千個(gè)幾萬個(gè)攝像頭聯(lián)系在一起;原先簡單的云存儲也變成了現(xiàn)在復(fù)雜的城市大腦,一個(gè)城市有一個(gè)總存儲中心和若干個(gè)分存儲中心。智能交通的決策分析都在總中心進(jìn)行,而數(shù)據(jù)則從最末端的每個(gè)攝像頭傳輸?shù)椒执鎯χ行?,再匯總到總中心。
那么,這些數(shù)據(jù)具體是怎么過來的?以前的模式就是,攝像頭把拍到的內(nèi)容用編碼器壓縮后傳送回來,到了總中心再解壓,通過基于手工的系統(tǒng)來提取有用信息,并分析識別。隨著人工智能技術(shù)越來越成熟,上述手工完成的工作都交給了深度神經(jīng)網(wǎng)絡(luò)來做,只要有足夠的算力就夠了。
但是,這樣一個(gè)系統(tǒng),真的能提高效率嗎?如果效率不行,又是因?yàn)槭裁丛蚰??剛剛說過,攝像頭拍到畫面后要進(jìn)行壓縮,然后傳到總中心解碼,再進(jìn)行特征提取、分析、識別;實(shí)際上,這個(gè)過程需要一定的時(shí)間,很難達(dá)到實(shí)時(shí)的效果。為了解決這個(gè)問題,人們不停地升級系統(tǒng),還加了許多特殊的智能攝像頭來直接識別一些特征,不再經(jīng)過編碼的過程,由此來節(jié)約時(shí)間。
這種解決方案真的好嗎?其實(shí)不然。因?yàn)?,這樣做確實(shí)可以解決一些小問題,但是它帶來了更多的大問題?,F(xiàn)在的攝像機(jī)網(wǎng)絡(luò)規(guī)模很大,所以它收集的數(shù)據(jù)也非常大,然而,數(shù)據(jù)大不等于大數(shù)據(jù)。這些攝像頭拍下來的東西,85%—90% 都是監(jiān)控視頻的數(shù)據(jù),很難對整個(gè)城市的管理和規(guī)劃改進(jìn)有幫助;而且,它們存儲的時(shí)間最長也只有三個(gè)月,可能在兩個(gè)星期的時(shí)候就被覆蓋了或是廢棄了。
這樣的超大數(shù)據(jù)量僅有一個(gè)超低的價(jià)值密度,我們應(yīng)該想辦法去轉(zhuǎn)換,讓它變得更有價(jià)值。問題其實(shí)出在架構(gòu)上。按照原來的架構(gòu),幾乎 99% 的攝像頭只是用來拍攝,然后將內(nèi)容編碼,即便它們傳輸?shù)臄?shù)據(jù)之后發(fā)揮了作用,攝像頭的貢獻(xiàn)也是極小的。所以,我們要想辦法讓攝像頭干更多的活兒,但又不是將其升級為簡單的智能攝像頭來識別人臉或車牌(原因上文已解釋)。
真正有用的方法是,讓攝像頭將有用的數(shù)據(jù)抽取出來,傳送到云,然后作為一個(gè)富有價(jià)值的大數(shù)據(jù)在云里處理并長期保存。這是從生物界受到的啟發(fā)。
無論人還是動(dòng)物,我們都有眼睛,并且效率非常高。眼睛獲取光學(xué)信號是通過視網(wǎng)膜來獲取,視網(wǎng)膜里有兩種比較關(guān)鍵的細(xì)胞,感光細(xì)胞和錐狀細(xì)胞,這兩種細(xì)胞加起來有 1.26 億,而我們平時(shí)看到的東西,都是通過這些細(xì)胞來傳到大腦的。不過,在信息往后傳的時(shí)候,經(jīng)過了若干層,每傳一層信息都會進(jìn)行縮減,一直傳到腦神經(jīng)的連接地方。
舉兩個(gè)例子,一個(gè)正常的孩子在學(xué)習(xí)的過程,實(shí)際是把神經(jīng)的全連接網(wǎng)絡(luò)進(jìn)行了增強(qiáng)和剪裁,有些連接變得越來越粗,有些連接慢慢就萎縮掉,最后他能有效率地辨別事物。相反,一個(gè)患有自閉癥的孩子末端神經(jīng)和腦端神經(jīng)一樣粗,而是沒有進(jìn)行過裁剪的全連接,他的注意力很難集中。
這也就說明了信息縮減的重要性,但目前我們的攝像頭沒有信息縮減這個(gè)功能,相當(dāng)于一個(gè)“自閉系統(tǒng)”。所以,我們的系統(tǒng)要像人的視覺系統(tǒng)一樣,把信息縮減了再往上送。
為了做這件事,去年我和一個(gè)北大的同志,還有一個(gè)阿里巴巴的同志,三個(gè)人一起在《中國科學(xué)》上發(fā)了一篇文章名為《數(shù)字視網(wǎng)膜智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)》的文章。
如果用了所謂的數(shù)字視網(wǎng)膜,這件事就可以解決了,數(shù)字視網(wǎng)膜有八個(gè)最主要的特性,我匯總了三個(gè)最本質(zhì)的特征:
第一個(gè)特征叫做全局統(tǒng)一的時(shí)空 ID,每個(gè)攝像頭要有一個(gè)全局統(tǒng)一的時(shí)空的 ID,地理位置是全局統(tǒng)一;每個(gè)攝像頭只要是送信息回來,馬上就知道這是全局統(tǒng)一幾點(diǎn)幾分的時(shí)間發(fā)生的事,發(fā)生的物理地點(diǎn)是在哪里。
第二個(gè)特征就是視網(wǎng)膜本身要有高效視頻編碼的能力,高效特征編碼的能力和聯(lián)合優(yōu)化的能力。高效視頻編碼方面現(xiàn)在有很多標(biāo)準(zhǔn),像 AVS 標(biāo)準(zhǔn),MPEG4 等等;特征編碼現(xiàn)在的標(biāo)準(zhǔn)有 MPEG,CDVS 標(biāo)準(zhǔn),CDVA 標(biāo)準(zhǔn);如果在一個(gè)碼流里,同時(shí)要監(jiān)控視頻編碼和特征編碼的話,要想辦法讓它們可以聯(lián)合優(yōu)化。
第三個(gè)本質(zhì)特征就是模型可更新,注意可調(diào)節(jié),軟件可定義,這也是三個(gè)不同的要求。我們現(xiàn)在都是用神經(jīng)網(wǎng)絡(luò)模型,隨著時(shí)間推移可能會有新的算法出來,所以,數(shù)字視網(wǎng)膜要是模型可更新的;換句話說,每個(gè)攝像頭上的算法都是可以升級的。注意可調(diào)節(jié),主要是可以后臺控制它。同一個(gè)畫面里的東西,優(yōu)先級在每個(gè)地方都是不一樣的,我們可以賦予它一個(gè)感興趣區(qū)域的功能,讓它有注意一些特別重要的區(qū)域,并保留這個(gè)區(qū)域的信息。
軟件可定義,可以通過軟件升級來實(shí)現(xiàn)軟件可定義。這種新的數(shù)字視網(wǎng)膜實(shí)際有三個(gè)流,不像傳統(tǒng)的攝像頭就是一個(gè)流,即一個(gè)視頻壓縮流或一個(gè)識別結(jié)果流。數(shù)字視網(wǎng)膜的三個(gè)流包括視頻編碼流,特征編碼流,模型編碼流。當(dāng)然這三個(gè)流是有分工的,有的是在前端可以實(shí)時(shí)控制調(diào)節(jié),有的是通過云端反饋出來進(jìn)行調(diào)節(jié)和控制的。這就是數(shù)字視網(wǎng)膜。實(shí)際上,數(shù)字視網(wǎng)膜主要是通過腦眼合一的方式,將未來終端的信息,通過數(shù)字視網(wǎng)膜的處理,送到云端的。
現(xiàn)在,我們在深圳專門做數(shù)字交通,為了做這個(gè)事而進(jìn)行大規(guī)模的訓(xùn)練。其中,有一些開源的東西,包括建立開源生態(tài),還有一些勢能的技術(shù),里面視頻編碼標(biāo)準(zhǔn)是一塊重要的勢能技術(shù)?,F(xiàn)在,聯(lián)盟也在做一些基于剛才說的標(biāo)準(zhǔn)裝的大的應(yīng)用標(biāo)準(zhǔn),這些都在按部就班往前推進(jìn)。
第一款數(shù)字視網(wǎng)膜芯片已經(jīng)在路上,很快就會發(fā)布,這個(gè)芯片很小,就像一塊錢硬幣一樣,但卻把我剛才說的三個(gè)本質(zhì)特征,八個(gè)功能全都包含在里面。將來,這種芯片可能會直接進(jìn)入各種智能交通的系統(tǒng)里,會支撐數(shù)字視網(wǎng)膜的應(yīng)用。
掃一掃在手機(jī)上閱讀本文章