第一章 數據——人類建造文明的基石。
如果把資本和機械動能,作為大航海時代以來全球化的推動力,那么數據正成為下一次技術革命和社會革命的核心動力
數據的最大作用在于承載信息,但并非所有的數據都承載有意義的信息。信息有時藏在事物的背后,需要挖掘和測量才能得到。數據是信息的載體,從數據中挖掘信息
數據中隱藏的信息和知識是客觀存在的,但是只有具有相關領域專業知識的人才才能將它們挖掘出來。對數據和信息進行處理后,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統性的特征。
得到數據和使用數據的能力是衡量文明發展水平的標準之一
使用數據的標準流程:
獲取數據 --> 分析數據 --> 建立模型 --> 預測未知
數據的作用自古有之,但是過去數據的作用經常被忽視。首先,由于過去數據量不足,積累大量的數據所需的時間太長,以至于在較短的時間內,它的作用不明顯。其實數據和想獲得的信息之間的聯系通常是間接的,他要通過不同數據之間的相關性才能體現出來。可以說相關性是讓數據發揮作用的魔棒。
很多時候我們無法直接獲得信息,但是我們可以將相關聯信息進行量化,然后通過數學模型間接的得到所要的信息,而各種數學模型的基礎都離不開概率論和統計學
切比雪夫不等式:當樣本數足夠多時一個隨機變量和他的數學期望值之間的誤差,可以任意小
模型的選擇不是一件容易的事,通常簡單的模型未必與真實情況相匹配.
日心說地心說如果一開始模型選的不好,以后修修補補就很困難,因此,在過去無論在理論上還是工程上,大家都把主要的精力放在尋找模型上
有了模型之后,第二步就找到模型的參數,以便讓模型至少和以前觀察的數據相吻合,這一點在過去的被重視程度遠遠不如尋找模型。但是今天他又有一個比較時髦而高深的詞——機器學習。
鑒于完美模型未必存在,即使存在,找到他也非常不容易,而且費時間,因此就有人考慮能否通過很多簡單不完美的模型湊在一起起到完美模型的效果呢?
這個答案是肯定的,從理論上講,只要找到足夠多的具有代表性的樣本,就可以利用數學找到一個模型或一組模型的組合,使得它和真實情況非常接近。
數據驅動方法的最大優勢在于它可以最大程度上得益于計算機技術的進步,盡管數據驅動方法一開始數據量不足,計算能力不夠。隨著時間推移,摩爾定律保證了計算能力和數據量,以一個指數級增長的速度遞增。數據驅動方法可以變得非常正確。相比之下,很多其他方法的改進需要靠理論的突破,因此改進起來周期非常長。
本章小結
數據驅動方法是大數據的基礎,智能革命的核心,它帶來了一種新的思維方式。
第二章 大數據和機器智能
在有大數據之前計算機并不擅長解決人類智能的問題,但是今天這個問題換個思路就可以解決了,其核心就是變智能問題為數據問題。由此,全世界開始了新一輪的技術革命-智能革命
開普勒從他老師手上接過大量的天文數據,找到了精確描述行星圍繞太陽運動軌跡的模型--橢圓模型
傳統的人工智能方法,簡單地講就是首先了解人類是如何產生智能的,然后讓計算機按照人的思路去做。今天,幾乎所有的科學家都不堅持,機器要像人一樣思考,才能獲得智能。但是很多門外漢,在談到人工智能時,依然想象著機器在向人類那樣思考,這讓他們既興奮又擔心。
鳥飛派
在人類的發明歷史上,很多領域早期的嘗試都是模仿人或者動物的行為,比如人類在幾千年之前就夢想著飛行,于是就模仿鳥將鳥羽毛做成翅膀,綁在人的胳膊上往下跳。事實上飛機的發明靠的是空氣動力學,而不是仿生學。
互聯網興起之后,數據的獲取變得非常容易。
從1994年到2004年的十年里語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍。這其中20%的左右的貢獻來自于方法的改進,80%才來自于數據量的提升。雖然每一年計算機在解決智能問題上的進度幅度并不大,但是十幾年量的積累,最終促成了質變
大數據最明顯的特征是體量大
一些數據,專家講大數據的特征概括成三個v,既大量,多樣性,及時性。這種方法雖然方便記憶,但并不全面精確。及時性,并非所有大數據必須的特征。多樣性含義上有歧義,其中最重要的含義是多維度
傳統方法問卷調查未必反映被調查人真實的想法,百度知道上的提問和回答沒有壓力,也沒有功利目的,說出了真實的想法。
大數據第三個重要特征也是人們經常忽視的,就是它的全面性完備性
大數據是一種思維方式的改變大數據之前,計算機并不擅長解決智能問題。但是今天換思路就可以解決,其核心就是變智能問題為數據問題。由此,全世界開始了新一輪的技術革命--智能革命。
深藍
深藍其實是大量的數據,并不復雜的算法和超強計算能力的結合,深藍從來沒有也不需要像人一樣思考。
雖然在評估自己和對方的勝率是可以根據歷史的數據考慮對手可能采用的做法。對不同的狀態給出可能性的評估,然后根據對方下一步走法對盤面的影響,核實這些可能性的估計,找到一個最有利于自己的狀態。并走出這步棋。
深藍其實把一個機器智能的問題變成了一個大數據的問題和大量計算的問題。阿發狗在具體算法上和深藍略有差異,但他們博弈的原理是相同的。
我們對大數據重要性的認識不應該停留在統計改進產品和銷售上或者決策支持上,而應該看到它導致了機器智能產生。機器一旦產生和人類相似的智能,就將對人類社會產生重大影響。決定今后20年經濟發展的是大數據和由之而來的智能革命。
第三章 思維的革命
在無法確定因果關系時,數據為我們提供了解決問題的新方法,數據中包含的信息可以幫助我們消除不確定性,而數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這便是大數據思維的核心
歐洲之所以能夠在科學上領先于世界其他地方,在很大程度上是依靠從古希臘建立起來的思辨的思想和邏輯推理的能力,依靠他們可以從實踐中總結出最基本的公理,然后通過因果邏輯構建起整個科學的大廈。最有代表性的是歐幾里得幾何學。
瓦特改進了蒸汽機,或者說把瓦特發明了一種萬用蒸汽機。
后人這樣評價牛頓和瓦特這兩位英國的杰出人物:
牛頓找到了開啟工業革命大門的鑰匙,而瓦特特拿著這把鑰匙開啟了工業革命的大門。
機械設備更廣泛的影響力是作為一種準則指導人民的行為,其核心思想可以概括成確定性和因果關系。
牛頓的物理學理論是建立在確定性基礎上,既所謂的絕對時空。
愛因斯坦的研究方式是對是的,他的理論也是建立在一種確定性-光速恒定的基礎之上,利用邏輯推理就可以推導出整個狹義相對論。
愛因斯坦自己說如果不是他也會有人在很短的時間內發現狹義相對論,因為狹義相對論就是光速恒定的必然結果。愛因斯坦的相對論在形式上和牛頓力學有相似之處,簡單而美妙,幾個公式就把整個理論描述清楚了。
牛頓被蘋果砸了一下的說法是伏爾泰杜撰出來的,并不靠譜。
愛因斯坦從白日夢中獲得另類想法搞清楚了廣義相對論卻是一件真實的事情
愛因斯坦在瑞士專利局無所事事,坐在窗前看見外面明媚的陽光,想著有人在窗外坐著椅子從天上加速而下的怪事,從此想清楚了重力和加速度的聯系,發現了廣義相對論。
這個例子說明人類找到真正的因果關系是一件很難的事情,運氣的成分很大,因此機械思維在認識世界時還是有很多的局限性
機械思維的局限性更多來源于他否認不確定性和不可知性。愛因斯坦有句名言--上帝不擲色子。這是他在和量子力學的發明人波爾等人爭論時的講話。
信息論
在概率的基礎上香農博士建立起一套完整的理論,將世界的不確定性和信息聯系起來,這就是信息論。信息論不僅是通信的理論,也給了人們一種看待世界和處理問題的新思路。
香農著名的論文:《通信的數學原理》,提出信息熵的概念,解決了信息的度量問題。同時香農還把信息和世界的不確定性或者是無序狀態聯系到一起。
信息論的作用遠不止在科學和工程上,它也是一種全新的方法論
信息論建立在不確定性基礎上,想要消除這種不確定性就要引入信息。
誰掌握了信息,誰就能獲得財富,就如同在工業時代,誰掌握了資本就能獲得財富。
用不確定相關這種眼光看待世界,在用信息消除不確定性。不僅能夠賺錢,而且能夠把很多智能問題轉化為數據處理的問題,具體說就是利用信息來消除不確定性的問題。
任何基于概率統計的模型都會有很多小概率事件覆蓋不到,這在過去被認為數據驅動方法的死穴,很多學科把這種現象稱為黑天鵝效應。
黑天鵝隱喻那些極為罕見,預期之外的事件他們在發現之前沒有前例可以證明,但一旦發生,就會產生極端的影響
大數據的完備性,可以解決這個問題。
大數據的科學基礎是信息論,本質是利用信息消除不確定性。大數據時代,量變帶來質變,采用信息論的思維方式,可以讓過去很多難題迎刃而解
通過關聯關系,可以反向查找因果關系。先有結果,再反推原因
能通過因果關系找到答案,根據因果關系知道原因固然好,但對于復雜問題,其難度非常大,除了物質條件,人們的努力還要靠運氣。
在大數據時代,我們能夠得益于一種新的思維方法--從大量的數據中找到答案,即使不知道原因。如果我們愿意接受,那么我們的思維方式已經跳出了機械時代單純追求因果關系的做法,開始具有大數據思維了。
搜索引擎,如果相信用戶點擊的結果,其實就是用相關性取代因果關系,這里面有兩個風險。
首先,用戶點擊容易形成馬太效應排在前面的結果技術不相關,也容易獲得更多點擊。
其次,那種依靠點擊搜索的結果容易被一些使用者操縱。比較穩妥的做法是對用戶的點擊數據建立一個簡單的模型,作為搜索排序算法的一部分,這個模型通常稱為點擊模型。
很多時候落后和先進的差距,不是購買一些機器或者引進一些技術就能夠彌補的,落后最可怕的地方是思維方式的落后
今天面臨的復雜情況,已經不是機器時代用幾個定律就能講清楚的了,不確定性,或者說難以找到確定性,是今天社會的常態。
在無法確定因果關系時,數據為我們提供了解決問題的新方法,數據中所包含的信息可以幫助我們消除不確定性,而數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這邊是大數據思維的核心。大數據思維和原有機械思維并非完全對立,他更多的是對后者的補充,在新的時代一定需要新的方法論,也一定會產生新的方法
第四章 大數據與商業
在未來我們可以看到,大數據和機器智能的工具就如同水和電這樣的資源,由專門的公司提供給全社會使用
一項技術帶動整個社會變革的事情也曾經發生過。它們通常遵循一個模式:
新技術+原有產業=新產業
安迪-比爾定律: 比爾(比爾蓋茨)要拿走安迪(安迪格羅夫,intel ceo)所給的。計算機領域軟件功能的增加和改進要不斷的吃掉硬件性能的提升。
以微軟為代表的軟件開發商吃掉硬件性能,迫使用戶更新機器,讓惠普戴爾等公司受益,而這些批廠商再向英特爾訂購芯片,在這個過程中,各家的利潤先后得到提升。硬件公司在將利潤投入研發,按照摩爾定律的速度提升硬件性能,為微軟下一步更新軟件吃掉硬件性能做準備。
每次技術革命都會誕生新的思維方式和商業模式,企業只有在思維上跟上新的時代,才能在未來的商業中立于不敗之地
第五章 大數據和智能革命的技術挑戰
大數據的數據量大,維度多,數據完備的特點使得他從收集開始到存儲處理再到應用,都與過去的數據方法有很大的不同。因此,使用好大數據也需要在技術和工程上采用與過去不同的方法。
科學技術的發展并非是勻速的,重大的科技突破常常需要醞釀很長時間。在這段時間內技術進步是一個緩慢的量的積累。有人稱為相對停頓的狀態。當積累的量達到一定程度之后,科技在短期內獲得單點突破。然后新科技全面迸發,這便是拐點。我們今天可能正處在機器智能就要超過人類的拐點。
計算機處理器的速度符合摩爾定律,單一處理器性能的提升,依然無法應對增長更快的數據量。不僅因為數據量太大,單機處理不了,而是因為數據量提高一萬倍時,計算量通常不是線性增加的,大部分情況下它會增長幾十萬倍,乃至上億倍
大數據具有多維度的特點,有時并行化是非常困難
大數據時代收集數據沒有預先設定目標,而是收集數據之后經過分析能夠得到什么結論就是什么結論,正是由于收集是沒有前提和假設,大數據分析才能給我們帶來很多意想不到的驚喜,這才讓大家覺得計算機變得更聰明
蘋果微軟谷歌等公司為了挖掘每一個家庭的消費潛力,想盡辦法千方百計掌握每一個家庭客廳的數據。有的通過游戲機或者機頂盒的設備不經意之間收集用戶數據
收集數據時非常忌諱“大膽假設,小心求證”的思維方式。如果事先有了定論,再找數據來證實它,總能找到有力的證據,但很可能與真實情況相差巨大
數據量增長的速度高過存儲設備的發展速度,越往后他們之間差距越大。
大數據面臨的另一個技術難題就是如何標準化數據格式,以便共享。
大數據在今天這個時間點爆發,是各種技術條件具備的結果。要讓大數據真正發揮巨大作用,還有很多技術挑戰需要應對。
第六章 未來智能化產業
未來的農業制造業體育醫療律師甚至編輯記者都將迎來嶄新形態,新產業將取代舊產業,滿足人的個性化需求,大數據將導致我們整個社會的升級和變遷。
大數據將導致我們社會的產業升級和變遷,不過,如果對比每一次產業革命前后產業的變化就會發現人類的基本需求并沒有變。只是采用了新技術后新產業會取代舊產業,滿足人的需求。在技術革命時,固守舊產業是沒有出路的。
機器智能帶來一個終極問題,事情都交給機器來做,而且比人做得更好,那人類怎么辦?
第七章 智能革命和未來社會
在歷次技術革命中,一個人一個國家,可以選擇的道路只有兩條,要么加入浪潮成為前2%的人,要么觀望徘徊被淘汰
"這是最好的時代,也是最壞的時代"--英國文豪狄更斯的名著雙城記開篇的一句話
工業革命對社會的影響分成三個階段:
- 第一階段只有發明家和工廠主受益。
- 第二階段是全體英國民眾受益。
- 第三階段才使整個世界受益。
第二次工業革命,上述的模式重復出現。
每一次重大的技術革命,都需要很長的時間來消除它的負面影響。因為技術革命會使得很多產業消失,或者產業從業人口大量減少,釋放出來老動力需要尋找出路。這個時間至少要一代人以上,被淘汰的產業的從業人員能夠進入新行業中的其實非常少。各國政府試圖幫助從業人員掌握新技能,但收效甚微。因為上一代人很難適應下一代技術發展。事實上消化這些勞動力主要靠的是等待他們逐漸退出勞務市場,而并非他們真正有了新的出路,能夠像以前一樣稱心如意的工作。這就是技術革命,都需要花半個世紀的消除它帶來的動蕩的原因。有些國家將無所事事的人強制塞到公司里,比如日本和歐盟。有些國家不可以淘汰過剩產能,比如中國。但解決問題的途徑都是一個“耗字”,耗上兩代,社會問題就解決了。
大數據和機器智能的趨勢一旦形成,就不是人力可以阻擋的。有識之士,包括霍金蓋茨,擔心機器智能將對人類社會造成方方面面的沖擊,呼吁有節制的發展機器智能,但智能革命的速度不會因此而放慢。從目前的發展來看,智能革命對社會的沖擊,甚至有可能超過過去幾次技術革命。
我們可以從三個角度分析其中的原因。
- 首先,信息革命本身帶來的影響還沒有消化完。
- 其次,今天的世界和200年前不同,消化技術革命的影響要比工業革命時難的多。由于全球化,全世界已經沒有空白的市場可以開拓了。
- 最后,也是最重要的一點,智能革命要替代的是人類最值得自豪的部分--大腦。
2010年,美國爆發了所謂的占領華爾街運動,一大群無業游民,低收入者聚集到紐約街頭,占領華爾街運動引起美國社會的反思。這些低收入者出路在哪里,通過福利和救濟將它們養起來,顯然是不夠的,因為那些人的人生前景依然是灰暗的,特朗普替這些人說出了希望-體面的工作。這些不滿情緒的根源在哪里不能簡單地歸結為貧富懸殊或者宗教紛爭。其根源在于,很多人對社會進步所拋棄了。隨著技術革命的發展,并非每一個人的發展機會都是越來越多的,反而可能會越來越少。是否有良好的解決辦法呢?坦率地講,誰也沒有。我們要在觀念上接受一個事實,越來越多的事情,人類將做不過機器。我們今后的決定,應該根據這個前提來做,只有面對現實,才能最終建設一個讓所有積極向上的人都具有成就感和幸福感的社會。
雖然我們不知道如何在長期內創造出消化幾十億勞動力的產業,但是我們很清楚如何讓自己在智能革命中受益,而不是被拋棄。這個答案很簡單,就是爭當2%的人,而不是自豪地宣稱自己是98%的人。在歷次技術革命中,一個人一家企業甚至一個國家可以選擇的道路只有兩條,要么進入前2%的行列,要么被淘汰。當下怎么才能成為這2%,就是踏上智能革命的浪潮。
未來依然是人的時代,我們不會被機器控制,機器在完成任務時甚至不知道自己在做什么。谷歌的alphago,其實并不知道自己是在下棋。但是制造智能機器的人就不同了,他們可能只占人口的不到2%,甚至更少,卻在某種程度上控制著世界
看是免費的,東西才是最貴的,因為我們獲得服務的同時交出了自己的自由,而只有我們失去自由利益受到損失時才會體會到自由的可貴。
控制著我們的不到2%的人口并沒有做壞事,到目前為止,他們對我們的幫助你帶來的危害要大得多。
怎樣加入2%的行列,并不是每個人都要去人工智能公司工作,而是希望大家接受一個新的思維方式,利用好大數據和機器智能。前幾次重大技術革命首先受益的是和那些產業相關的人,善于利用新技術的人。雖然并非每一個人都能夠去開發大數據和機器智能產品,但是應用這些技術要不是像想象中的那么難。
在每一個重大的技術革命開始的時候,真正勇敢地投身到技術革命打仗長駐那里畢竟是少數,受益者更少,大部分人則會猶豫和觀望。在智能革命到來之際,每一個人也有兩個選擇,要么加入這次浪潮,要么觀望徘徊,最后被淘汰。大多數人的觀望徘徊,給了2%的人機會,使得愿意吃螃蟹的人在奮斗路上少了很多競爭對手。馬斯克和蓋茨一方面對機器智能的發展非常擔心,另一方面卻選擇加入到機器智能的大討論。
大數據導致機器革命的到來,對未來社會的影響是全方面的,盡管總體上這些影響是正面的。從長遠看,我們未來的社會會變得更好,不過和以往的技術革命一樣,智能革命也會帶來很多負面的影響,特別是在它發展的初期,這些影響可能會持續很久。
任何一次技術革命,最初的受益的都是發展到使用它的人要遠離他,拒絕接受它的人在很長的時間里都是迷茫的一代。作為人和企業,無疑應該擁抱它,成為2%的受益者。作為國家需要未雨綢繆,爭取不要像過去那樣每一次重大的技術革命都伴隨半個世紀的動蕩。
我們還沒有經歷過機器在智能上全面超越人類的時代,我們需要在這樣的環境里學會生存。這將是一個令我們振奮的時代,也是一個給我們帶來空前挑戰的時代。
其他
學術休假
在美國的大學里教授每7到10年左右的時間可以帶全薪休假半年或者帶半薪休假一年。大部分教師會選擇到一個合作單位做一些科研,以拓寬自己的視野,另一些教授則選擇找一個地方去寫書。
無罪推定原則
被告的一方在法庭上先被假定為無罪,除非有足夠的證據證明其有罪
大陸法系 VS 英美法系
實行大陸法系的國家,包括除了英美(及英聯邦,加拿大等)之外的幾乎所有國家。在這些國家立法永遠是遠遠滯后于案件發生。
英美法系,又稱普通法系,海洋法系。
英美法系在司法審判原則上更「遵循先例」,即作為判例的先例對其后的案件具有法律約束力,成為日后法官審判的基本原則。