第一章 數據-人類建造文明的基石
1.數據≠數字,數據包含數字。并非所有數據都是有信息的,數據≠信息。數據包含語音文字圖片設計圖紙甚至人類行為本身。
2.對數據和信息進行處理后,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統性。
3.人類文明發展過程可以抽象為:獲取數據→分析數據→建立模型→預測未知4.數據驅動方法:只要數據量足夠,就可以用若干個簡單的模型取代一個復雜的模型。因為是現有大量的數據,然后用很多簡單的模型去契合數據(Fit Data);原理就是 切比雪夫大數定律。
第二章 大數據和機器智能
1.學術界將機器智能分為傳統人工智能的方法和現代其他的方法。
傳統的人工智能~首先了解人類如何產生智能,然后讓計算機按照人的思路去做。即飛鳥派。現代其他方法:統計+數據2.大數據的特征:大量、多樣性(多維度)、完備性【數據驅動方法可以使得智能問題轉變為數據問題】
第三章 思維的革命
1.機械思維是依靠總結出的最基本的公理,然后通過因果邏輯構建整個科學的大廈。其中最具代表性的就是歐幾里得的幾何學(提出5條最簡單且相互獨立的公設)和 托勒密的地心說(假設簡單元模型,基于此構造出復雜模型,用數據吻合)。
2.后人將牛頓的方法論概括為機械思維,核心思想可以概括為這樣幾句話:
* 世界變化規律是確定的
* 規律不僅僅是可以被認識的而且還可以用簡單的公式或語言描述清楚
* 這些規律還可以被用來指導未知領域
3.工業革命是機械思維的結果機械思維直接導致了工業革命,更廣泛的影響是作為一種指導人們的行為,其核心可以概括成確定性(或可預測性)和因果關系。機械思維的局限性更多的來源于它否認不確定性和不可知性。
4.熵(Entropy)---一種新的世界觀熵:在一個封閉系統中,熵永遠朝著不斷增加的方向發展,也就是說從微觀上講,這個系統越來越無序,從宏觀上看他趨于恒溫。想弄借用熵的概念來描述信息系統的不確定性:信息的度量等于不確定性的多少,想要消除系統內部的不確定性,就要引入信息。
5.現代社會的不確定性致使我們無法簡單的用機械定律可以概括,當我們無法確定因果關系時,數據中所包含的信息可以幫我們消除不確定性,某種程度上可以用相關關系取代因果關系,這就是大數據思維。
第四章 大數據與商業
1.IT產業鏈的形成。摩爾定律帶來問題是讓電子產品價格持續下降,消費者沒有動力購買新產品,無法拉動產業增長。“安迪比爾定律”解決了這個問題,即軟件性能的增加和改進會吃掉所有硬件性能的提升。
計算機工業整個生態鏈:以微軟為代表的軟件開發商吃掉硬件提升帶來的全部好處,迫使用戶更新機器,讓惠普,戴爾,聯想等公司受益。而這些pc整機廠商再向英特爾這樣的半導體公司訂購新的芯片,同時向希捷等外設廠商購買新的外設。整個過程中,各家的利潤先后得到相應的提升,股票,也隨著上漲。各個硬件半導體和外設公司再將利潤投入研發,按照摩爾定律預定的速度,提升硬件性能,為微軟下一步更新軟件,吃掉硬件性能做準備。
第五章 大數據和智能革命的技術挑戰
從數據的產生,存儲,傳輸和處理四個角度來分析大數據形成的技術條件。
1.數據的來源
數據來源于電腦本身(電腦中的處理器,傳感器和控制器一直在產生數據)、傳感器(收集數據非常容易)、將過去已經存在的以非數字化形式儲存的信息數字化。
2.信息的存儲
存儲容量增大
存儲設備的讀寫速度增大(現在采用半導體的固態存儲器)
3.傳輸速度
大量的數據集中不到一起,就不會產生大數據。現在的第四代LTE(通用移動通信技術的長期演進)和WIFI的覆蓋使得,數據產生后,可以迅速上傳到服務器上。
4.數據的處理
應用大數據的一個前提就是,能夠將一個大的計算任務分到很多臺,便宜的服務器上去做并行計算。云計算開始興起。