什么是大數據?在讀這本書之前,我想大數據嘛,那就是很大很大的數據,也就是很多的數據咯。這本書給出了大數據的更準確的定義,大數據不是數據量上的大,其實其意義是相對樣本數據而言的。以前我們采集數據時,由于采集和處理能力的限制,針對規模較大的數據時,我們的做法其實是采集和分析樣本數據。而現在由于計算能力和存儲能力已經發生本質的改變,我們能夠采集和處理我們想要分析研究的所有數據,因此這里的大數據,是指的全體數據。
同樣的,以前由于是采集樣本,我們必須要求樣本的數據必須能夠準確地反映總體數據,因此樣本的精確性要求很高,樣本數據不精確帶來的偏差,往往有可能使我們的整體的分析完全錯誤。但現在由于我們是采集處理所有的數據,這樣不可能去保證采集的每一個數據都是完全可靠采用新的方法面對隨時帶來的混雜性。
譯者在序里面說他不同意作者關于因果關系和相關關系的觀點,但看了書中內容之后,我不得不說作者的觀點還是有一定道理的。作者認為在大數據的背景下,我們現在需要更多去關注相關關系。通過大數據學習分析得出兩個事物之間存在某種關聯,我們只需要去利用這種相關即可,至于其中背后的因果關系,對于我們來說可能過于復雜,也沒必要去深究。
之前剛看過丹尼爾·卡尼曼的《思考,快與慢》,對其中的觀點分析還是很震撼并且非常認同的。其中提到的就有我們一般的思考都是趨于找出一個故事中的因果聯系,即便我們所認為的因果關系在很多時候并不真的存在。同樣對于上面的問題也是一樣的,通過大數據我們分析得出一定的相關關系,我們總是習慣去找背后的原因,其中隱藏的因果關系。但是我們所認為的那樣的因果關系是真是存在的嗎?
之前對佛教有一段時間非常感興趣。佛教認為萬物即因果,所有的現在都是有之前我們種下的因。愛因斯坦說“上帝不擲骰子”,但后來的量子理論其實說上帝他就是擲骰子來著的。
我確信是5年前自己的決定和所做所為造就了今天的我,這是所謂的因果,但我不知道5年前的我是由什么樣的10年的我造成的。我記得5年前的我很痛苦迷茫,甚至有一段時間每天會去念金剛經,現在雖然有時也會痛苦和迷茫,但和之前的那個我也已然完全不同。那個時候的我在自學編程,結果今天成了一個苦逼的程序猿;今天的我決定要成為一個產品經理,5年之后的我會是一個什么樣子?
有點扯遠了。
書里面作者除了提出幾個還不錯的觀點,其中大部分各種現實商業社會的案列分析覺得都不太必要。對于大數據,寫一篇幾千一萬字的文章已經可以將要說的很多觀點詳盡地表達出來,整出一個140頁包含三大部分8個章節的書來,讀著就感覺有點冗長了。
維克多·邁爾,數據科學的技術權威,他是最早洞見大數據時代發展趨勢的數據科學家之一,也是最受人尊敬的權威發言人之一。他曾先后任教于世界最著名的幾大互聯網研究學府。現任牛津大學網絡學院互聯網治理與監管專業教授,曾任哈佛大學肯尼迪學院信息監管科研項目負責人,哈佛國家電子商務研究中心網絡監管項目負責人;曾任新加坡國立大學李光耀學院信息與創新策略研究中心主任。并擔任耶魯大學、芝加哥大學、弗吉尼亞大學、圣地亞哥大學、維也納大學的客座教授。