視覺物聯網顧名思義就是前端傳感器是由圖象和視頻傳感器構成,這個東西非常重要,比如在人大腦皮層中有相當大一部分,超過一半大腦皮層是用于視覺感知的,我們認為視覺感知是我們認識周遭世界的途徑,所以我認為視覺物聯網在物聯網當中應該是起著非常重要的作用。對于通用的視覺物聯網也有四個層面,首先是視覺傳感,第二是數據傳輸,第三是智能信息處理與理解識別,第四是應用。它的主要特點就是利用各類視覺傳感器來獲得周圍我們感興趣的圖象和視頻,包括手持設備,包括網絡攝象頭,包括監控攝象頭,包括數碼相機,甚至包括網絡上各種各樣圖片,都是我們獲得圖象和視頻信息的來源。其中一個重要的核心技術就是所謂的視覺標簽的提取與利用,我們知道RFID有RFID的標簽,什么是視覺標簽呢?就是對圖象和視頻當中的內容進行識別、理解和分類。目前應用當中最主要的有三個大類,首先是對人這樣一個標簽的理解,比如人的身份,其次是對車,比如車牌、車型,還有各種各樣的物件,包括超市,包括生活當中各種各樣的物件,比如一幅畫,就是人車之外的物件。
智能視覺物聯網重要的就是對人車物貼視覺標簽,這個也是類比于RFID這樣一個標簽來的,我們要通過各種各樣的傳輸網絡,對數據進行傳輸,這些網絡包括無線網、因特網、視頻網。通過網絡的傳輸與信息處理與分析,建立起跨傳感器,跨攝像機,跨時間、跨空間的視覺標簽的提取與他們的關聯。他們的關聯是網絡狀態下非常重要的特點。如果我們對某一路的監控攝像進行分析的話,還沒有形成一個網絡的力量,只有在我們對跨一個大范圍的視覺信息進行綜合識別與融合,與挖掘之后,才能顯示出這個物聯網的作用。
剛才我提到傳輸,今天我們會議主題之一是三網融合,三網融合其實是對數據進行傳輸的平臺。如何利用各種各樣的網絡,各種各樣的終端,包括移動終端,固定終端以及視頻終端進行這樣一個信息的處理加工與利用,是我們視覺物聯網所要解決的一個重要的問題。
現在再說一下視覺物聯網當中的一個核心技術,就是用視覺理解的手段給人車或者其他物件貼標簽。比如說給人貼標簽,給車貼標簽,給物貼標簽,這個標簽包含各種各樣的物件的屬性,包括它的名稱、它的ID,它的顏色,它的身份,它的發生的地點,以及各種各樣的屬性。我們要利用視覺理解或者圖象處理與計算機視覺的技術手段完成實現這樣一些功能。視覺標簽與RFID標簽的區別是什么呢?RFID距離是比較近的,比如刷一個門卡,或者車上有一個RFID一個天線,我們要收費,或者RFID會被別人用,利用視覺標簽可以在更遠距離對物體進行識別,這是視覺標簽和RFID標簽之間最顯著區別,打破了距離和范圍的限制,并且在多個物體同時出現的時候不會出現混淆,因為每個物體應該有一個唯一標簽。這個標簽是比較虛擬化的標簽,他會把這些標簽,我們對這些物體,對人車物提取標簽之后,會把信息存儲到數據庫。
從他的應用來講,我們可以根據標簽的屬性對視覺物聯網的應用進行分類,比如面向人的視覺標簽系統,他一個最典型的應用就是人臉識別或者是人口管理、身份管理。面向車的視覺標簽的系統的應用就是智能交通,識別車牌、車型以及車的速度,以及他是不是違反交通規則。對其他物件標簽的應用就應用更廣了,比如我們超市每一個物件都會有一個標簽。所以,他的應用會包括身份識別,門禁系統,社保身份識別,銀行帳戶管理,還有電子商務,網絡購物等等。智能交通就是交通指揮、車輛違章檢測,路口信息監測等等,還有其他物件標簽,比如在博物館會用一些監控攝象頭對展品進行監控。
下面通過一個實例來說明,剛才大家談到物聯網的時候,更多是從宏觀角度,從這樣一個設想的角度來談這樣一些架構,其實這個東西可以利用現在的技術應用。我重要講解的一個實例就是三網融合的人臉識別,什么是三網融合呢?我也是借助廣電系統的這個詞,但是它確實是包括了電信網、互聯網、最后一個電視網我們稍微有點不一樣,視頻網指的是監控視頻網絡。這樣跟廣電系統的三網融合大部分是重合的。
電信網是把電信網這樣一個平臺作為手持設備的傳輸渠道,互聯網可以是無線的,也可以是有線的,把互聯網作為一個固定終端的傳輸起到,視頻網把視頻信號通過有線和無線方式進行傳輸。所以,這樣一個系統綜合了移動終端、固定終端和視頻終端實現人的視覺標簽系統,對人的身份進行識別。這樣的話,從結構來看,我們可以有手持終端,可以有電腦終端,也可以有攝象頭,通過無線、有線傳輸,進行視覺處理服務器進行視覺標簽提取和識別。最后,我們會把分析的現場結果,不管是用手機傳輸的視覺圖片或者是通過固定終端進行網絡上傳得到的圖片,或者是從監控視頻提取的檢控視頻,從當中提出的人車物的信息,與目標數據庫進行對比,進行進行識別。識別之后,如果我們發現了跟興趣的人,一些目標人,或者有什么狀況的話,我們會做一個提示報警信號。剛才趙總也說了有一個反饋過程,他提到現在由于各種技術的限制,現在不能做到全自動的反饋,但是至少能夠幫助人來做一個決策。所以,我們把這個報警信號只是信號的提示,或者某種意義上自動信號,比如你要開門禁的話,這個完全做到識別是沒有問題的。
面向更廣泛的,包括車輛和物件的視覺標簽系統,我們可以把人車物視覺標簽綜合起來,能夠拓展到其他領域。這個架構其實就是我剛才說的幾個架構,首先是傳感層,然后是傳輸層,然后是信息處理層,然后是綜合應用層,這樣四層的架構。我剛才提到只有把網絡力量實現起來之后,才能體現出這個網的價值,我剛才說的視覺標簽分析,或者說是視覺標簽的提取,如果只是單路的話,它的作用是比較有限的。如何把這個在大范圍內實現出綜合視覺標簽內容的挖掘與關聯呢?一個例子就是流動人群行蹤挖掘,這個也是從公共安全實際應用中提出來的。假設我們有很多攝象頭在各個地點部署,每一個攝象頭都對流動人群進行視覺標簽提取,識別他的身份,這些攝象頭分析的視覺標簽信息送到一個中央服務器,我們可以把在不同時間、地點和跨攝像機提取出來的人物從這個數據庫當中進行關聯和挖掘,從而分析出流動人群的行蹤,這樣就更能體現視覺物聯網的價值。目前的核心技術已經用到了北京奧運,用到了上海世博,用到了邊檢通關,包括深圳和珠海和北京T3航站樓,大家出入境的時候可以看到兩邊有這樣一個閘機。另外剛才提到在北京天安門,從去年國慶節開始實施,也是對流動人群進行監控。
最后總結一下,視覺感知是物聯網應用當中一個非常重要的部分,視覺標簽系統是視覺物聯網的核心技術所在,通過三網融合,我們可以實現視覺物聯網的應用,就是物聯網的應用并不僅僅是停留在現在這樣一個框架的描述上面,我們已經把它變成了一個現實,物聯網的應用的話,剛才趙總說是從高端向低端輻射,現在我們主要是應用在高端,包括公共安全,智能交通,人口管理等等一些方面。隨著這個技術不斷進步,隨著這個成本的不斷降低,我相信他會滲透到我們生活的方方面面。(本文為作者在“2010中國數字電視產業高峰論壇主題演講”) |