從信息論說起(雜談)

什么是信息?在信息科技書的第一章,信息論的香農從通信的角度給信息的解釋為:用來消除不確定性的東西。在課堂上,會這么給學生解釋這句話的意思(例子來自施老師):老師進入教室,你們可能會想,這個是老師嗎?使我們的信息老師嗎?今年幾歲了?有沒有結婚?有沒有小孩?當老師做了自我介紹,你們腦子里的疑問也就一個個被消除了。書上的例子是關于旅游查詢信息的例子。我上課的時候也只是強調信息和載體的區別,比如報紙、報紙上的文字、報紙上文字所傳達的內容。

沒有怎么深究過香農、信息論、通信方面的內容。直到KK老師推薦張汶老師的文章《以信息論的視角理解信息科技課程的核心概念》【1】,然后花了一點時間去研究香農的信息論。雖然是計算機出身,但是計算機專業從來都沒有提到香農,也沒有提到什么是信息。拜讀了張老師的文章,知乎上的文章,沒看懂啥意思。然后我詢問了huan,問問有沒有懂這方面知識的大神,沒想到huan滔滔不絕地介紹起信息論的一些知識,我一知半解,有點概念了。突然意識到為啥計算機專業沒有提到信息論,因為這個是通信的基礎知識,終于明白當年計算機和通信為啥是一個輔導員了,從數理并到機電的時候,也是計算機和通信專業并過去了,原來是有那么點關系的。接著抽空去了上海圖書館,最坑爹的是,書名叫做信息論的書都在綜合藏館,我的借書卡在家里,所以純講信息論的書沒法看,只能去中文圖書館。本著阿Q精神,讀書千遍,其義自見的精神,把關于通信的書全部搬下來,只看關于信息、信息熵有關的內容,希望能看懂些什么。看著看著,發現天下文章一大“抄”,大部分內容都差不多,一些術語也漸漸不陌生了。回家把張老師的文章和網絡上關于信息論的文章又重新看了一遍,終于明白了點什么,好像能夠串起來了。

我們用克、千克、斤等單位來衡量重量,用厘米、分米、毫米等單位來衡量長度。什么是信息?大家都能理解,也經常使用,但是要給信息下個定義,確實很難。有沒有衡量信息的單位?什么是信息量大?什么是信息量小?對于一些人來說,某某消息的信息量很大,同樣的消息,對于某人來說,已經知道了,沒啥信息量。

直到香農提出了一個數學公式,來定義信息,這個公式和概率有關,當概率大的時候,信息量小,當概率小的時候,信息量大。當時和Huan電話,他舉了一個例子,也是人工智能課上危輝老師舉的例子,當時危老師舉這個例子的時候,我只覺得好玩,并沒有意識到危老師在講信息論的知識,囧。這個例子是這樣的:狗咬人和人咬狗。狗咬人,發生的概率比較大,所以信息量比較小,但是人咬狗,不是狗肉,發生的概率比較小,大家會想這個人是不是得狂犬病了?為什么這個人會去咬狗?會有很多疑問,其中的信息量就比較大了。這個例子很形象的解釋了香農關于信息的數學公式。

關于這個數學公式,有個很特別的名字,叫做信息熵,啥叫熵,就把我看暈了,好高大上的名字。然后查閱了一下資料,了解到,熵是來自物理概念中的熱力學,百度百科上有個視頻【2】是關于熵的,很形象:一杯清水,然后滴入墨水,最后清水和墨水混合在了一起。狀態的變化:清水--》清水+墨水獨立存在--》墨水開始慢慢延伸,把清水攪渾了,混亂的狀態--》變成墨水色的水,穩定的狀態。熵,和混亂程度有關。英文中熵是entropy,中文為什么翻譯成熵,是胡剛復教授造的詞,火取自熱力學,商取自熱溫比中商的概念,然后組合成了這個中文詞---熵,還是蠻有意思的。和信息論中的信息熵啥關系,從網上看到的說法,相傳香農不知道要給這個公式取什么名字,叫信息量好呢?還是信息度好呢?后來選用了“熵”,因為很少人用,從概念上不容易混淆,而且熵本身有混亂的意思,和信息的不確定性也有類似性,所以選用了信息熵作為公式的名字。

說起這個公式,香農還是從哈特萊那里得到的啟發(聰明的KK率先搜到的)。早在1928年,哈特萊就想到了,他首先提出信息定量化的初步設想,他將消息數的對數定義為信息量。若信源有m種消息,且每個消息是以相等可能產生的,則該信源的信息量可表示為I=log10 m。看著有點復雜,和KK一來一回的提問、思考后,我得出了這樣的思考過程。首先解決M的問題:m種消息,我們可以理解為m種狀態,如果有100種狀態,我們用多少位十進制表示?2位十進制表示(00-99);如果101中狀態,我們用多少位十進制表示?3位十進制表示(000-100);其次解決為啥以10為底:大概是當時十進制比較流行吧,可能1928年還沒有實體的計算機,還沒有二進制的概念吧(ENIAC計算機,1946);最后解決為啥用log的問題:比如,2位十進制可以表示多少種狀態?10*10(10^2);3位十進制可以表示多少種狀態?10*10*10(10^3);從數學角度上,要求出公式100=10^x中x的值,只能用log了吧。

1948年,香農對其進行了更深入的研究,給出了信息的統計描述:

香農用信息熵來定量衡量信息的大小,而所有輸入電腦的任何信息最終都要轉化為二進制,所以在信息熵公式中,當對數底為2時,信息量的單位為比特,比特也就是我們現在經常用來衡量信息的最小單位。當對數底為10時,叫做哈特萊,估計也是紀念哈特萊的貢獻吧。香農的公式和哈特萊的公式區別在于一個是和概率有關,一個是和狀態、種類有關。當時去問鄭SJ老師關于log的數學問題,她也表示很驚訝,因為在高中數學中,log屬于一章,概率屬于一章,沒想到這兩樣東西可以放在一起,沒想到這個公式還和信息、通信有關。對于計算機出身的我來說,為啥概率和不確定性有關,對于數學出身的鄭老師來說,概率就是和不確定性相關的。哈哈,再次說明,突破都在跨界的領域。

香農的信息熵是和概率有關系的,也就是說概率越小,信息量越大,概率越大,信息量越小。如果按這個來理解,書上的例子就有點暈了,我當時的理解是,如果按照生活的角度是可以理解的,你看得資料越多,信息量就越大。但是按照香農概率的理解,你看得資料越多,知道的越多,確定的東西就越多,概率越大,信息量不是反而越小了么。越想越矛盾。經過一番和鄭老師的探討,大概理解如下,是個動態的過程:比如,我剛開始不確定要去哪里旅游,所以我網上搜資料,有搜美國、日本、英國、西班牙等地區的旅游信息,信息量就很大了(不確定、概率小、信息量大),當搜集到一定程度,我確定要去哪里旅游了,比如美國,目標鎖定后,我只搜和美國相關的內容,信息量就縮小了(確定、概率高,信息量小)。以上理解純屬猜測,不一定對。畢竟香農是從通信的語境解釋的,我們是從生活的語境中解釋的,有偏差。

再回到香農的信息熵,從這個公式開始,信息有了度量單位---比特,就是我們現在經常用來衡量信息的最小單位。bit,在英文里是 binary unit的縮寫,表示二進制位,在中文里叫做比特。

香農的信息熵的概念研究完了,來研究香農的三個編碼定理。第一定理關于無失真信源編碼,第三定理關于限失真信源編碼,第二定理關于信道編碼。什么鬼,連名字都看不懂。后來看到這張圖,就明白了。

通信系統模型

通信系統最核心的一幅圖,信源--信道---信宿。通信要解決的是什么問題?傳輸信息、消息對吧,怎么能夠更快更好準確的傳輸信息呢?在信源部分,消息盡量不失真,也就是失真率小,但是盡量少用符號(我腦子里跳出來電報,一個字一個錢)。信道部分,信道上有干擾,所以要有一定的抗干擾能力,傳輸速度要快。所以只能在信源編碼和信道編碼上下功夫了。信源編碼部分,減少冗余,提高編碼效率。然后引出了我們熟悉的有損壓縮和無損壓縮。信道編碼部分,提高糾錯能力,多一些冗余,比如在馬路上運輸玻璃杯,為了防止玻璃杯破掉,在玻璃杯之間加一些海綿什么的緩沖物。由信道編碼,引伸出了現在的密碼學。

在回過頭去看那高大上的三個定理,簡單理解為,信源編碼和信道編碼,信源編碼分為無損(不失真)和有損(失真)。

至此,可以大致理解課本中的編排了,什么是信息---二進制---編碼(文字圖像聲音)---壓縮(有損、無損)。以前只知道按照課本的順序教,著重在“技術、計算”上,不知道背后的原理和歷史發展。

經過這段時間對信息論的初步研究,覺得古人好偉大,怎么能夠想到這些公式、這些模型的,沒有他們的付出,也沒有現在的通信和計算機了。以前聽老師說,計算機是建立在物理和數學基礎上的一門學科,在研究信息論的時候,書上滿滿的數學公式,深深地感受到了這句話,也深深地覺得自己數學功底的薄弱,連log的計算都還給老師了, 囧。從通信的角度出發,理解計算機中經常出現的編碼、壓縮、糾錯碼,還是很有意思的。

寫不出高大上的期刊文章,寫這篇雜談,記錄下自己這段時間的思考和研究過程,感謝KK、鄭老師、huan的耐心指點。


參考資料:

【1】張汶,【學科探索】以信息論的視角理解信息科技課程的核心概念(節選),上海教研訂閱號,http://mp.weixin.qq.com/s?src=11×tamp=1516715699&ver=654&signature=fbGwJll5HqT9QhTSk7W75v5m*hzar51yfH9VIGkk8NgiXXle5M16coSS0YeMX-d98pG2NN7x7Rol7zM5xjicP1PuhM72msNpzksNxaZkELVw87lVsdgBGm-ZeF9tNZfL&new=1

【2】熵,百度百科,https://baike.baidu.com/item/%E7%86%B5/101181?fr=aladdin

還有很多書和網上資料,就不一一列舉了。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,247評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,520評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,362評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,805評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,541評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,896評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,887評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,062評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,608評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,356評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,555評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,077評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,769評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,175評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,489評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,289評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,516評論 2 379

推薦閱讀更多精彩內容

  • 第1章介紹 1. 為什么要進行視頻壓縮? 未經壓縮的數字視頻的數據量巨大 存儲困難 一張DVD只能存儲幾秒鐘的未壓...
    ISunshine閱讀 760評論 0 11
  • 昨晚剛把吳軍的這本書書看完,好多內容都在他之前的《浪潮之巔》真本書中提到過了,最精華的其實是最后的控制論、系統論和...
    英天閱讀 845評論 0 2
  • 引用 所謂的壓縮就是在不損失信息量的前提下,用新的描述方式表示原有的數據,而這種方式占用的空間更少。 先來個小例子...
    2young2simple閱讀 3,148評論 0 1
  • 本文是《硅谷之謎》的讀書筆記之一,也是我認為全書最精彩的一部分。 1、維納和控制論 控制論突破了牛頓的絕對時間觀。...
    elleyes閱讀 2,395評論 0 3
  • 〇、目的 機器學習的很多算法中,越來越多的利用信息論的一些觀點和結論。本文更多的是從機器學習的角度對信息論做一個簡...
    Herbert002閱讀 4,691評論 0 3