如何用信息看世界

指導著工業時代(8世紀中葉-19世紀)的基礎理論,是強調確定性和可預測性的機械論,直到現在,很多人還習慣用機械思維解決問題。但從20世紀初開始,物理學家們意識到不連續性、不確定性是我們這個世界的本質,在這個新體系下,指導人們的理論已經逐步變為“三大論”,即信息論、控制論和系統論,它們也正是信息時代的科學基礎之一。本篇總結一下信息論相關的思想、理論以及用法,希望對你有用。

一、“信息”是什么

“信息”這個概念雖然常用,可它的本質似乎很少有人關注,按直覺判斷,“信息”不具有物理性,既不是物質,也不是能量,但它又似乎無處不在。

我們所說的“信息”到底是什么呢?

信息確實是一個抽象概念,它是音訊、消息、通訊系統傳輸和處理的對象,泛指人類社會傳播的一切內容。

通俗的講,可以這么理解:在自然和社會中,人們通過觀察各類事物,在腦中形成了對應的“信息”,這些“信息”可以用某種約定好的編碼形式(語言、文字)記錄或傳遞,人們用這些“信息”來認識、區別事物,以指導人們改造世界。

二、信息有什么用?

1948年,信息論奠基人克勞德·艾爾伍德·香農(Claude Elwood Shannon)在論文《通訊的數學理論》(A Mathematical Theory of Communication)中給出了直擊本質的經典定義:

“信息就是用來消除隨機不定性的東西”。

從這個定義看,信息的能力是消除不確定性,這是為什么呢?不需用理論證明,舉兩個符合你直覺的例子:

1、你面臨一個數學考試,滿分是100分,那么當前你考試得分的可能性是0-100分,如果你提前了解了考試范圍和難易度并加以復習,那么得分的可能性就會改變,比如50-100分,如果你再進一步了解出題人的習慣、出題歷史,并繼續有針對性的復習,那么你得分的可能性的范圍會繼續縮小。同理,在生活中你會發現,無論是選學校、找工作、買房子還是買股票,你都習慣性的會調查研究一番,在信息論的角度看,這些做法的基本原理都是用更多的信息來消除不確定性。

2、我們今天常說的大數據、人工智能,說到底就是想方設法利用更多信息消除不確定性。比如下圍棋,對計算機來說,就是在最多361個點位選擇一個地方落子,是一個361選1的問題;而對于語音識別,不過是在幾十個發音相似的單詞中選一個匹配;人臉識別呢,則是在幾百萬人中選一個匹配;至于今日頭條的推薦,也是從若干篇新聞中匹配一些你感興趣的。

三、信息論的理論基礎

下面再稍微總結一些具體的方法論。

1.如何量化“信息”——信息量和信息熵

能發出信息的系統,我們可暫且稱之為“信息源”,那么既然要通過信息來觀察、評估甚至改造信息源,就必須對信息有一個量化標準。

怎么量化呢?仔細想想,在生活中,信息的載體是消息,而不同的消息帶來的信息即使在直觀感覺上也是不盡相同的。比如,“你所在公司的CEO成為了世界首富”顯然要比“比爾蓋茨成為了世界首富”信息量大得多,究其原因,前者是小概率事件,發生的可能性微乎其微,而后者早已讓你習以為常。

因此,香濃的思路就是,以不確定性來度量信息,在一個信息所表示的N個可能性中選出一種可能性所需要的量,叫做“信息量”,而所有可能性的加總就叫“信息熵”。如此一來,信息的不確定性就轉化到了兩個變量上:信息所表示的可能性越多、不確定性越大,它提供的“信息量”就越大,對應的“信息熵”就越大。

舉個例子,假設我們有一個硬幣,每次拋出正面朝上的概率都是1/2,那么如果你告訴我“這一次拋硬幣的結果是正面朝上”,這個消息的每個信息量就是:

那信息熵呢?就是把這條信息中的所有可能性對應的信息量的加權平均:

說到這里,你可能會覺得“熵”這個字有點唬人,不就是“平均信息量”嗎。之所以叫“熵”,是因為它跟統計物理學中“熵”的公式幾乎一樣,其含義也類似,在物理學里,“熵”大致描述了一個系統的混亂程度,而“信息熵”也可大致描述信息源的不確定程度。

2.為什么新信息可降低不確定性——條件熵

描述信息之間的相關性就要用到“條件熵”。假設信息源發出兩條信息X和Y,如果它們具有相關性,那么在已知X的條件下,另一個消息Y的信息熵就會減小。條件熵 H ( Y | X ) 表示的是在已知隨機變量X的條件下另一個隨機變量Y的不確定性,也就是在給定X時,根據Y的條件概率計算出的熵再對X求解數學期望:

最后,用X的“信息熵”減去已知X情況下Y的“條件熵”,就得到了“信息增益”,它可用來表示X的出現消除了多少Y的不確定性。

舉一個通俗的例子,以上課為例,信息Y是“學生在教室中可以任意選擇座位”,那么可能出現的座位分布會很多,其信息熵也就較大。如果此時又來一個信息X,表明“對座位的選擇添加一個限制條件,男生坐左邊而女生坐右邊”,雖然左邊的座位分布和右邊的座位分布依然是隨機的,但相對于未加限制時的情形就會簡單很多。那么用Y的信息熵減掉在X出現后Y的條件熵,就會發現X給Y帶來了信息增益。

3.不確定時就保留多樣性——最大熵原理

除了以上定義的指標之外,信息論中還有一個重要定理,叫作“最大熵原理”。

最大熵原理是一種選擇隨機變量統計特性最符合客觀情況的準則,也稱為最大信息原理。隨機量的概率分布是很難測定的,一般只能測得其各種均值(如數學期望、方差等)或已知某些限定條件下的值(如峰值、取值個數等),符合測得這些值的分布可有多種、以至無窮多種,通常,在不知道如何選擇的情況下,選其中信息熵最大的分布是一種有效的處理方法和準則。這種方法雖有一定的主觀性,但可以認為是最符合客觀情況的一種選擇。

在投資時常常講不要把所有的雞蛋放在一個籃子里,這樣可以降低風險,其實就是最大熵原理的一個樸素的說法,因為當我們遇到不確定性時,就要保留各種可能性,獲得更多的機會。

四、信息論的啟示

把信息論的方法論應用我們的日常會有哪些實踐呢?

1、如何用信息降低事物的不確定性?

你把自己當成一個系統或者你寫程序構建了一個了軟件系統,這個系統的能力是預測某個事物發展的可能性,降低不確定性,應該如何利用信息論來實現呢?

按信息論的方法,你要收集和分析這個事物傳遞給你的所有信息,越多越好,這樣你就可以不斷的獲得信息增益,降低信息熵,對事物發展的可能性做更準確的判斷。

不過,你最終能消除多少不確定性,關鍵取決于你能獲得多少有效信息。一般來說,由于噪聲、隱藏因素、消化信息能力等諸多限制,很多事情的不確定性是無法100%消除的,如果你還想最大限度的把事情做好,還要結合控制論的思想,一邊做一邊通過反饋來吸收新信息,快速迭代,持續逼近目標。詳細攻略可參考我的另一篇超長科普《系統、信息、控制和反饋,人們解決問題的基本原理

2、如何提升消化信息的效率?

單純從一個信息本身的信息熵來看,你接受一段信息速度的快慢,取決于這段信息對你來說,在多大程度上是可預測的。

比如讀書,如果作者說上半句你就知道下半句,那你很快就看完了,而如果這本書的內容對你來說是全新的,那你就只能慢慢細讀。所以一個人讀書速度的快慢,從根本上來說,是取決于這個人以前讀過多少書。對一個領域了解越多,讀這個領域的新書就越快。小說看多了,再看新小說就覺得到處都是俗套。

在生活中,我們常常被教導要多學習、多體驗,也正是這個道理,所謂新人看哪里都新鮮,老手看哪里都是俗套,并不是老手對世俗看淡了,而是兩者積累的信息量不同,消化新信息的效率不同,造成了兩者看同一個事物產生了不同的觀點。從信息論的角度看,老手活的更有效率。

3、如何用數據思維解題

上個世紀70—80年代,信息論專家賈里尼克教授和他的同事們提出了“數據驅動”的解決人工智能問題的方法,并且在識別語音、翻譯語言等領域獲得了成功。到了互聯網普及之后,出現了數據的大爆炸,而且原來各個不同領域的數據可以關聯了,這就產生了我們所說的大數據。

在這里,你首先要區分數據和信息。數據是形成信息的原材料,是最底層的原料。它和信息最大的差別就是數據的量非常大,信息的量要小一些,數據是散亂的、非指向性、非結構性的,信息是有指向性和結構性的。舉個例子,比如通過測量星球之間的相對位置和時間,就得到了數據,將這些數據系統性的整理得到了星球的運動軌跡,就是信息。

所謂用數據思維解題,就是把一個原來習慣性用邏輯來解的問題轉換為一個信息問題,然后把數據做成信息,讓機器進行快速匹配計算找答案,用的方法雖然和人的思考習慣完全不同,但是能解決問題。就像阿爾法狗,只要提前給它輸入所有棋盤上可能出現的情況,面對具體的選擇,它就能從信息庫中快速地篩選出最佳的步驟。

如果你沒搞過相關計算,直覺會告訴你這很難,尤其是那些復雜算法,實際上,在計算機領域達成的共識是,你能不能挖掘到足夠的有效信息才是最關鍵的。

在很長的時間里,大約從上個世紀80年代初到90年代初,全世界學術界的焦點都放到了算法上,大家普遍認為是模型不夠準確,導致很多識別錯誤消除不了,但是十多年下來,沒有什么拿得出手的成果。90年代初,賈里尼克教授從IBM的高管回歸到學術界,他發現大家的路完全走錯了,因為如果不挖掘新的信息,很容易就遇到天花板。Google搜索的優化之路也驗證了這一點,直到2015年,搜索準確度的改進,有90%都來源于找到了新的有用信息,只有不到10%的改進,在于用更好的機器學習方法,把模型的參數訓練得更準確。

回過頭來看,信息論早就指明了這一點。減少識別的錯誤,其實就是要消除不確定性,而消除不確定性,就要使用新的信息。所以在這個領域解決問題時,如果你想快人一步,就要去挖掘更多數據,轉換成更多有價值的信息,從這個角度看,相比算法,你所發現和積累的領域知識、實踐經驗、思考、洞見才是你最寶貴的財富。

五、寫在最后

最后,想一個有趣的問題,什么樣的人最符合信息論的世界觀呢?

給自己確定性:更多的積累體系化、結構化的信息,可以降低吸收新信息帶來的不確定性,提高吸收效率。只有這樣,你才能保證在每天大量信息呼嘯而來的時候,敏感地抓住那些不尋常之處,那才是真正有價值的信息。

給別人確定性:一個人經常輸出簡潔、明確的信息,那么就是給別人更多的確定性,降低了別人對他的預測成本。當然,對方的信息消化能力也是一個因素,如果別人還是很難理解怎么辦?信息論說,克服噪聲的正確方法不是放大信號,而是增加信息冗余,所以,想要讓別人充分理解你的意思,最好的辦法不是用更大的聲音對著他喊,而是多給他說幾遍。

單虓晗寫于201903

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。