前言
ICT圈子里的人,尤其是學通信的,多多少少都會聽說過“信息論”這個詞。美國數學家香農于上世紀40年代創建了這個關于信息轉換和傳輸的理論體系。得益于信息論,我們今天才能夠方便地使用電子設備進行遠程溝通和協作。
那么,信息論這樣一個充滿數學公式的抽象理論體系跟數字孿生這樣一個以呈現為主的應用領域有關系嗎?答案是:有。并且,按照信息論中的術語來說,絕對是互信息高,強相關性的兩個事物。
自從接觸數字孿生以來,有個問題一直困擾著我,就是我們的客戶甚至于一些剛入行的同事,都認為數字孿生系統除了界面美觀和效果炫酷以外,好像沒什么更大的用處,一言蔽之:花瓶!而接觸過一段時間后,想法改變了,認為數字孿生系統好像有點用處,但是又說不出個所以然來,也只好反反復復地用一些車轱轆話來向客戶解釋,我們的系統直觀易懂,能反應最新的高科技和前衛思想,領導們都很喜歡云云。很多客戶一聽,是這么回事,既然“我愛學習,學習讓我媽快樂”是真理,那么“我買數字孿生,數字孿生讓領導開心”必然也不差啊。
于是乎,優锘科技的軟件銷量一直還不錯。
作為一家有情懷的公司,我們從來沒有放棄正本清源的信念,而是期望通過理論,尤其是那些被數學嚴格證明的理論,來解釋數字孿生系統存在的科學原理。很巧的是,前段時間剛好讀了一些關于信息論的資料,這些資料寫得淺顯易懂,讓資質愚鈍的我也能大概了解了其中的部分內容。今天這篇短文,就是嘗試著用信息論中的觀點,來解釋為何數字孿生系統能夠大行其道。不過有個重要的前提必須要說,這篇文章談論的所有關于信息論的內容,人都是接收信息的最后節點,要把人的因素考慮在其中。
信息轉換兩原則
信息論中,關于信息的轉換有兩個基本原則:
容易識別:也就是說,代表信息的符號類型數量不要太多,容易記憶,且外在表示輪廓清晰,不過于復雜,符號與符號之間區別度較大;
高效編碼:就是用盡量少的符號表達盡量多的信息,這是信息編碼效率的提高,讓信息轉換和傳輸的速度都會快很多,這個原則同時也是香農第一定理的一種白話解釋。但高效性的前提是容易識別,比如瑪雅人用二十進制,雖然滿足了編碼高效性的原則,但是符號太多,沒有滿足容易識別的原則,所以不是信息傳遞的最佳編碼方式。計算機的二進制雖然編碼效率不是最高的,在計算機的世界里是最容易識別和處理的,所以最終被采用。在人的世界里,最合適的是十進制。
下面來看看收發電報用的摩爾斯電碼的編碼示意圖。
上圖中,小圓點代表電報機的短接觸,長條代表電報機的長接觸(即發報員按住繼電器,讓其保持閉合的時間大概為短接觸的三倍),不同的長短組合代表不同的字符和數字(下面是老式電報機的示意圖,看了這張圖應該能知道什么是接觸了)。
摩爾斯編碼特別能體現信息轉換的兩個原則。首先,只有短接觸和長接觸兩種方式,接收電報的電報員很容易識別,不太會出現偏差;然后,按照文章里英文字母出現的概率來進行編碼,最常見的字母e用最簡潔的一個短接觸表示。這樣做的結果,就是編碼的電報長度相對較短且容易識別,傳輸起來就又快又準。
信息論的基本應用
傳統的應用系統在表達物理世界時,無論是文字表達還是圖形表達,都是用抽象、概括、推理等手段將物理世界按一定的方式進行了轉換,造成的結果就是用戶盲人摸象一般對管理對象進行了不同的解讀。而數字孿生系統采用的是基于物理世界、三維的、交互式的圖形界面,相當于讓用戶身臨其境一樣的來到現場面對真實的管理對象,這種情況下就很難產生二義性。
概括來說,數字孿生系統及其符合信息轉換中的第一個原則,容易識別。這個特點使得代表物理世界的信息在到達傳輸路徑最終節點的時候(這個最終節點就是人)能夠被忠實的還原,幾乎不會出現失真,所有用戶都能夠全面、一致、快捷地理解信息代表的含義。可以說,這是人類目前所有信息傳遞方式中辨識度最高的,沒有之一。
至于高效編碼原則,在數字孿生系統中應用比較廣泛的就是無損壓縮和模型緩存。
當用戶第一次進入系統或者模型更新的時候,都要從服務器下載模型。這時候,如果網絡帶寬不夠(廣域網尤為明顯),就會導致系統加載緩慢。對于開發者而言,網絡帶寬是不可控因素,所以他們通常都使用無損壓縮的方式,將物體模型文件和模型上的貼圖文件進行壓縮,減少了網絡數據的傳輸量,進而降低了系統加載的時間。
內存由于存取數據速度上的優勢,是程序員的最愛。但是基于安全的考慮,瀏覽器本身所能使用的內存是有限的(而普通的可執行程序能使用幾乎所有的可用物理資源),所以前端開發人員的重要任務之一就是如何把有限的內存發揮最大的作用。在數字孿生系統中,通常的做法是將模型及相關數據進行緩存,當然也是利用高效編碼的原理,將三維場景中的各類模型按數量多少進行排序,再決定哪些模型文件放到內存中,保證這些頻繁出現的模型不需要再去硬盤上讀取,節省加載的時間。
信息論的擴展應用
信息在傳輸的過程中,由于人為因素或者年代久遠,要么增加了一些干擾的噪聲,要么缺失了一些重要的片段,人們不太清楚信息究竟要表達什么含義,也就是說信息出現了不確定性。對于這個問題,在眾多的解決方案中,信息論就是很有效的手段之一
4.1 信息的矢量化
很多優秀的知識學習者都提到了一個經驗,想要快速學習某個領域的知識的話,要至少找兩篇由這個領域中的兩位觀點相反的佼佼者編寫的文章或者書籍來看。這個經驗映射著這樣一個道理,如果要知曉事物的本質,就要盡可能多維度地了解它的外在特性,通過交叉驗證的方式發現真相。如同我們要了解歷史的真相,僅僅靠讀史書是不夠的,再多的史書也只是在文字記載這樣一個維度上去還原歷史,我們還要依賴于考古學家的文物發現去從另一個維度驗證。
在數字孿生系統中,依賴于三維可視化技術,被管對象就是以多種維度呈現在用戶面前。
舉個停車場可視化的例子,傳統的系統大概能告訴用戶兩條信息,一是車位總數,二是空閑車位數量。這樣的信息可以讓管理員或者車主采取二選一的行動,一是有車位,你可以進去停,二是沒車位,你別進去了,但這樣的信息包含的不確定內容太多了,對車主或者為車主提供服務的停車場管理員來說極不方便。
但是數字孿生系統中的停車場就不一樣了,管理員或者車主不僅僅可以看到是否有車位,還可以看到哪里有車位或者殘疾人車位,哪些車位方便停車,哪個區域的車位多一些,甚至能夠以第一人稱的視角引導車主到達目標車位。如果停車場與建筑物在同一場景中,還可以了解到哪些車位離電梯近一些,哪些車位離車主準備前往的辦公區域或者商業區域近一些,基本上所有人群的需求都能被覆蓋到。
比起傳統系統單一的數量維度,數字孿生系統還以可視化方式提供了空間位置維度、動態第一人稱視角維度、參照物維度、車位類型維度、同質區域維度等等,維度的增加讓信息的確定性越來越高,大大提高了信息的價值。這就是信息矢量化產生的巨大效用。
4.2 信息的冗余度
1997年8月,一架大韓航空客機在接近關島機場時撞上尼米茲山山腰,226人死亡。事后調查發現,事故發生前客機第一副駕駛和飛機工程師都曾用韓語表達過反對目測著陸的暗示,而機長沒有意識到暗示的內容。
作為補救措施,大韓航空邀請達美航空的戴維?格瑞博來幫助管理運營。格瑞博空降來的第一件事就是提高所有航班機組的英語能力,并將工作語言規定為英語。
造成這場空難的原因很多,比如機長的能力低下與偏執,比如韓國企業文化中的權力至上氛圍而不敢對機長提出質疑而導致的表達過于委婉等等。但其中有一個很重要的原因就是英語的這種表達方式比起東亞語言來說,信息冗余度更高,更容易讓人理解而不產生誤會和信息缺失。
什么叫信息冗余度高呢?舉個例子,英文版和中文版的圣經通過哈夫曼編碼(可以理解成一種把信息高度抽象化,把廢話全部去掉的無損壓縮算法)后的長度幾乎是一樣的,但如果不壓縮的話,英文版的圣經的厚度幾乎是中文版的1.5倍。這個結論充分說明了對于同樣一個意思的表達,英文的表達方式是冗余量較高的。即便不做量化的對比,大家在英語考試時做中英文互譯對此應該也深有體會。在此我們不去探究為何英語冗余度高,我們只需要知道這樣一個信息論中的結論即可,就是為了提高信息傳遞的有效性,必須保持信息的一定冗余度。上文中說到的大韓航空替換工作語言,其實也是應用到了這個結論,從而保證信息傳遞的有效性,降低溝通失誤導致災難發生的可能性。
數字孿生系統中,關于物體的空間屬性(比如長寬高和坐標信息),不僅僅有傳統的數字形式,還有物體的三維模型這樣一個等同于空間屬性數據的冗余表達形式。你可以想象這樣的一些場景,一臺核磁共振儀穿墻而過,同時出現在兩個房間里;一個機柜中的上下兩臺服務器有一部分重疊在一起。這種現實世界中不可能發生的情況在數字孿生系統中出現了,為什么呢?因為系統的呈現是基于空間屬性數據的,作為資產管理員便很容易的從其中發現資產數據存在的問題進而進行完善,這就是數字孿生系統中,信息冗余度帶來的好處。
信息論的未來應用
大家都會有這樣的體驗,當你戴著耳機在一個嘈雜的環境中聽歌的時候,為了聽清楚歌曲,不得不提高音量,但是長時間的高音量對耳朵是有損傷的。為此出現了一種主動降噪耳機,這種耳機中內置的芯片能夠過濾掉外界的噪音,只讓人想聽的音樂進入耳朵。它是怎么做到的呢?
這里需要引入一個新概念,叫“傅里葉變換”。這個概念詳細解釋起來對于普通人來說有點晦澀,概括而言,就是把不容易識別的信息通過一種等價方式的轉換,從而變得容易識別和處理。我們知道很多關于等價轉換的例子。比如曹沖稱象的故事中,就是把不容易測量重量的大象的轉換成可以測量的很多塊石頭;比如天體物理學家判斷宇宙中其他星球的物質成分,并不需要降落到其上去采樣,而僅僅通過望遠鏡的觀測和光譜分析即可,正是因為物質的化學成分與其光譜之間是等價關系。同樣的道理,主動降噪耳機能夠通過傅里葉變換,把外界聲音等價變成一個個不同頻率聲波的組合,并分析、發現并抵消聲波組合中的屬于噪音頻率的聲波,最后讓耳朵聽到正常的音樂。
傅里葉變換是信息論體系中很重要的一根支柱,在數字孿生系統中也有很多的應用場景,尤其是自動建模這部分。作為數字孿生領域的領頭羊,優锘科技已經在CAD圖紙、IT系統架構圖和二維物體圖片的自動識別和建模方面應用了傅里葉變換算法,并取得了一些重大突破,原理也是把上述三類數據進行等價轉換,把其中的噪音數據過濾后再進行處理。只是,這其中還要牽涉到大數據訓練和人工智能的模式識別等諸多的技術領域,并不是一蹴而就。
優锘科技一直在暢想一個由自動化采集、自動化生成和自動化連接組成的三位一體的新一代數字孿生世界。現在,以傾斜攝影為代表的的自動化采集技術和以5G通信為代表的自動化連接技術已經初見成效,而自動化建模則是我們進入新世界要跨過的最后一道難關。
技術在進步,人也在進步,對于我們優锘人來說,還有什么是不可能的呢?



