? ? 最近在讀一本書《大數據時代》。那本書給我一種莫名其妙的感覺,他的話太多了,或者說作者想用很多的理論來闡述書中的論點。
? ? 帶到那種感覺去網上找了一下書評,發現有很多人在吐槽這一點最后網友得出了一個一致的看法,這是一本用于布道,科普,很適合于文科生看的書(那一點并不帶有偏見,這本書確實和我原來看的書不一樣,是一本很容易懂的一本理科方面知識的話太多的書),本人也比較贊同,但是最后那一點偏激,私認為有那么理科生的一絲驕傲。
那本書為并不了解大數據的人提供了一些比較新穎的觀點(然而這只是在我的眼中看上去比較新穎,因為那本書出自于2013年,而現在已經到了2017年了,過了足足四年。)。
一、在未來相關關系將比因果關系更為重要。
當對所有數據進行分析后,能夠得到一個相關關系,然后我們就可以直接將其用于實際操作,而且沒必要知道這是為什么。因為大數據分析并不能告訴你那個事情的原因。大數據只能告訴你將會發生什么,或者說是什么。
二、總體數據將取代隨機抽樣。
隨機抽樣是在人們沒有辦法獲得大量數據為前提下發明的一種比較簡陋,但卻比較可靠的一種統計方法(數據采集方法)。但是隨機抽樣及其依靠其隨機性,因為一旦收集樣本的過程中存在偏見,這會對數據分析的結果產生巨大的影響。為什么特朗普是被主流媒體所拋棄,但卻贏得總統大選的人?因為在美國最新民調的時候存在一定的偏見,并沒有把美國底層人民的意愿包含進來或者說沒有分配足夠多的樣本比例。而現如今獲取數據的成本相對過去十分低廉與方便(原來都是人工去收集),并且能夠有強力的數據分析工具對其進行分析,所以總體數據將進一步一步的取代隨機抽樣。
在那里說個題外話,其實我認為,在進行民調的時候完全不用去打電話或者說發傳單,而是直接通過網絡上有的信息,比如推特facebook或者說是,一些比如人人網還有qq信息和qq空間之類的互聯網產品。可以對公開的信息進行過數據分析,然后得到一些趨勢化的東西。
三、混雜性將的精確性更重要。
那林的確最開始讓我感覺很奇怪,等確實原先追求精確性是因為那時的測量工具不行提高精確度會給你帶來很高的回報。但是就像邊際效益遞減一樣,如果你現在還在追求數據的精確性的話,你所得到的回報微乎其微或者說意義不大。而混雜性的確為人們提供一些不同的東西,因為原先那些東西并不為人所記載或者是分析。所以當你對其信息進行分析時,你會發現很多原來都沒有注意到的相關關系。
因為之前在網上看書評去了不少的網站,其中就有一個評論,大概意思是這樣:經驗將代替理論。黑人問號???怎么就代替了啊,理論也是前人的經驗呀!再說了,現在計算機如此發達,我們這些數學專業的人也沒見得放棄手算。雖然的確出現了一些弱化理論的情況,這一點,從對相關關系的重視就不難看出。私認為大數據并不會代替什么,他只會修正或者是更新原來并不完善的理論與觀點,而且大數據重在相關關系,而非因果。所以理論依舊會存在在這個世界上。