《大數據時代》的讀書筆記

《大數據時代》的讀書筆記

作 ? ?者:[英]維克托.邁爾-舍恩伯格

出版社:浙江人民出版社

版 ? ?次:2013年1月第1次出版

作者簡介:

維克托.邁爾-舍恩伯格被預言為大數據時代的預言家,現任牛津大學網絡學院互聯網研究所治理與監管專業教授。曾任哈佛大學肯尼迪學院信息監管科研項目負責人,新加坡國立大學信息政策研究中心主任。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業。他是歐盟互聯網官方政策背后真正的制定者和參與者,還先后擔任新加坡商務部高層,文萊國防部高層、科威特商務部高層、迪拜及中東政府高層的智囊。

本書的重點內容和理解:

引言:一場生活、工作與思維的大變革

1、大數據,變革公共衛生

2009年出現新的流感病毒---甲型H1N1流感病毒。當時的方式:患者到醫院,醫院上報疾病控制中心,疾病中心匯總數據。結果時間延遲一兩個星期。谷歌:通過一定的數學模型,他們能判斷出流感是從哪里傳播出來的,而且判斷非常及時----大數據挖掘。大數據挖掘能力:以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。

感悟:大數據時代的到來,各國的疾病控制中心可以取消了。

2、大數據,變革商業

購買飛機票:由埃齊奧尼創立了一個預測系統---Farecast系統,此系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節省50美元。

感悟:Farecast票價預測工具是否適合中國航空數據庫,是否適合中國航空機票票價的預測。

3、大數據,變革思維

以前一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了。如今數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。

感悟:根據過去的大數據,預測未來,指導我們未來的行為。

4、大數據,開啟重大的時代轉型

大數據的科學價值和社會價值正是體現在這里。一方面,對大數據的掌握程度可以轉化為經濟價值的來源。另一方面,大數據已經撼致力了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域。

感悟:大數據,開啟重大的時代轉型。我們準備好了嗎?

5、預測,大數據的核心

大數據的核心就是預測。它被視為一種機器學習。大數據是把數學算法運用到海量的數據上來預測事情發生的可能性。大數據已經成為新發明和新服務的源泉,而更多的改變正蓄勢待發。

感悟:大數據挖掘算法是大數據研究的一大難題。但是不是大數據研究的核心呢?不是....

6、大數據,大挑戰

三大轉變:第一、大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴隨機采樣。第二、研究數據如此之多,以至于我們不再熱衷于追求精確度。第三、我們不再熱衷于尋找因果關系。

大數據時代開啟了一場尋寶游戲,而人們對于數據的看法以及對于由因果關系向相關關系轉化時釋放出的潛在價值的態度,正是主宰這場游戲在關鍵。

感悟:大數據不再過時。我們可以從不同的維度去提取有價值的東西。大數據挖掘算法不是大數據研究的核心,而是我們從他人想不到的維度去提取有價值的東西。所以大數據應用比大數據挖掘算法更為重要。

第一部分 大數據時代的思維變革

01 更多......不是隨機樣本,而是全體數據

1、讓數據“發聲”:大數據與喬布斯的癌癥治療:蘋果公司的傳奇總裁喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以,他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數據文檔。對于一個普通的癌癥患者,醫生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是喬布斯的醫生們能夠基于他的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。喬布斯說:“我要么是第一個通過這種方式戰勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人”。雖然他的愿望都沒有實現,但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。

2、樣本=總體:我們總是習慣把統計抽樣看做文明得以建立的牢固基石。但是統計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產生的,其歷史不足一百年。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數據的主要方式。慢慢地,我們會完全拋棄樣本分析。

感悟:現在每一個醫學專業的學生都會修一門課本(統計學),也許不久的將來,這門課會正式退出醫學課程。

02 更雜......不是精確性,而是混雜性

1、允許不精確:從“小數據”到“大數據”的一個重要轉變之一,就是我們允許不精確。“大數據”通常用概率說話,而不是板著“確鑿無疑”的面孔。整個社會要習慣這種思維需要很長的時間,其中也會出現一些問題。但現在,有必要指出的是,當我們試圖擴大數據規模的時候,要學會擁抱混亂。

2、大數據的簡單算法比小數據的復雜算法更有效:翻譯軟件有微軟的班科、IBM的Candige、谷歌等三大翻譯系統。谷歌的翻譯之所以更好并不是因為它擁有一個更好的算法機制。和其中兩個翻譯軟件相比,這是因為谷歌翻譯增加了很多各種各樣的數據。而且還有一部分數據來自于互聯網的一些廢棄內容。

3、紛繁的數據越多越好:如今我們已經生活在信息時代。我們掌握的數據庫越來越全面,它不再只包括我們手頭現象的一點點可憐的數據,而是包括了與這些現象相關的大量甚至全部數據。我們不再需要那么擔心某個數據點整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是高昂的代價消除所有的不確定性。混雜性,不是竭力避免,而是標準途徑。

感悟:擁抱大數據時代,最重要的還是我們心智模式的改變。要格式化自己過去曾經擁有的.....

4、新的數據庫設計的誕生

大的數據庫并不是固定在某個地方的,它一般分散在多個硬盤和多臺電腦上。為了確保其運行的穩定性和速度,一個記錄可能會分開存儲在兩三個地方。如果一個地方的記錄更新了,其他地方的記錄則只有同步更新才不會產生錯誤。傳統的系統會一直等到所有地方的記錄都更新,然而當數據廣泛地分布在多臺服務器上而且服務器每秒種都會接受成千上萬搜索指令的時候,同步更新就比較不現實了。因此,多樣性是一種解決的方法。

Hadoop:最能代表這個轉變的,就是Hadoop的流行。它非常善于處理超大量的數據。通過把大數據變成小模塊然后分配給其他機器進行分析,它實現了對超大量數據的處理。它預設硬件可能會癱瘓,所以在建立了數據的副本,它還假定數據量之大導致數據在處理之前不可能整齊排列。它假定了數據量的巨大使得數據完全無法移動,所以人們必須在本地進行數據分析。Hadoop的輸出結果沒有關系型數據庫輸出結果那么精確,它不能用于衛星發射、開具銀行賬戶明細這種精確度要求很高的任務。但是對于不要求極端精確的任務,它就比其他系統運行得快很多,比如說把顧客分群,然后分別進行不同的營銷活動。

感悟:Hadoop是學習大數據平臺的第一門語言,我要準備好哦......

03 更好......不是因果關系,而是相關關系

1、亞馬遜推薦系統:根據客戶個人以前的購物喜好,為其推薦具體的書籍。據說亞馬遜銷售額的三分之一都是來自于它的個性推薦系統。亞馬遜的推薦系統梳理出了有趣的相關關系,但不知道背后的原因。

感悟:在大數據時代下,我們只需要知道是什么就夠了,沒必須知道為什么。

2、相關關系:相關關系的核心是量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。相反相關關系弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。現在,在機器、發動機和橋梁等基礎設施上放置傳感器變得越來越平常了,這些傳感器被用來記錄散發的熱量、振幅、承壓和發生的聲音等。一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。

比如:超市把尿片和啤酒放在一起;蛋撻和颶風用品放在一起;預測一個婦女懷孕。這是我們通過兩個數據的相關關系分析出來的。因為這兩者的相關關系強。讓我們應用大數據去尋找更多的相關關系.....

3、大數據時代將要釋放出的巨大價值使得我們選擇大數據的理念和方法不再是一種權衡,而是通往未來的必然改變。

感悟:在大數據時代下,我能做什么?

04 數據化 ? 一切皆可“量化”

1、數據,從最不可能的地方提取出來

日本汽車防盜系統:當一個人坐著的時候,他的身型、姿勢和重量分布都可以量化和數據化。在汽車的座椅下部安裝總共360個壓力傳感器以測量人對椅子施加壓力的方式。把人體屁股特征轉化成了數據,并且用從0到256這個數值范圍對其進行量化,這樣就會產生獨屬于每個乘坐者的精確數據資料。在這個實驗中,這個系統能根據人體對座位的壓力差異識別乘坐者的身份,準確率高達98%。有了這個系統之后,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。同時,這個系統不但可以發現車輛被盜,而且可以通過收集到的數據識別出盜賊的身份。

感悟:這個例子很有意思。識臉、指紋系統等都是對抽象的圖象進行了數據化。

2、當文字變成數據

當文字變成數據,它就大顯神通了。人可以用之閱讀,機器也可用之分析。亞馬遜深諳數據化內容的意義,而谷歌觸及了數據化內容的價值。

對地理位置的數據化需要滿足一些前提條件。我們需要能精確地測量地球上的每一塊地方;我們需要一套標準的標記體系;我們需要收集和記錄數據的工具。簡而言之,就是地理范圍、標準、工具或者說量化、標準化、收集。只有具備了這些,我們才能把位置信息當成數據來存儲和分析。

“現實挖掘”是通過處理大量來自手機的數據,發現和預測人類行為。在一項研究中,他們通過分析每個人去了哪里,見了誰,成功地區分了感染了流感的人群,而且在感染者還完全不知道自己已經患病之前就做了區分。如果出現非常嚴重的流感疫情,這可以挽救無數人的生命,因為我們知道應該隔離誰,而且隨時都知道去哪里找到他。

感悟:我們的隱私去哪兒了?

3、當溝通變成數據

數據化不僅將態度和情緒轉變為一種可分析的形式,也可能轉化了人類的行為。facebook將社交關系變成數據;Twitter通過創新,讓人們被輕易記錄以及分離他們零散的想法,從而使情緒數據化得到實現/

4、世間萬物的數據化。

通過一個人的體重、站姿和走路方式確認他的身份。ZEO公司則早已制作出了世界上最大的睡眠活動數據庫,提示了男性和女性睡眠時快速眼動量的差異。Asthmaplis公司將一個感應器綁定到哮喘病人佩戴的呼吸器上,通過GPS定位,再匯總收集起來的位置數據,可以判斷環境因素對哮喘的影響。蘋果公司通過音頻耳塞收集關于血液氧合、心率和體溫的數據。獲取數據正變得比以往任何時候都簡單而不受限制。

一旦世界被數據化,就只有你想不到,而沒有信息做不到的事情了。今天,擁有了數據分析的工具(統計學和算法)以及必需的設備(信息處理器和存儲器),我們就可以在更多領域、更快、更大規模地進行數據處理了。在大數據時代,驚喜無處不在。

將世界看作信息,看作可以理解的數據的海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。

05 ?價值 “取之不盡,用之不竭”的數據創新

1、數據就像一個神奇的鉆石礦,當它的首要價值被發掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。

在數字化時代,數據支持交易的作用被掩蓋,數據只是被交易的對象。交易完成,數據也就完成他的使命。而在大數據時代,事情發生變化。數據的價值從它最基本的用途轉變為未來的潛在用途。這一轉變意義重大,它影響了企業評估其擁有的數據及訪問者的方式,促使甚至是迫使公司改變他們的商業模式,同時也改變了組織者看待和使用數據的方式。

2、數據的價值并不僅限于特定的用途,它可以為了同一目的而被多次使用,也可以用于其他目的。要了解大數據時代究竟有多少信息對我們有價值,后面這一點尤其重要。

3、數據的“潛在價值

IBM電動汽車動力與電力供應系統優化預測:IBM開發了一套復雜的預測模型。輸入:基于大量的信息輸入,如汽車的電池電量、汽車的位置、一天中的時間以及附近充電站的可用插槽,它將這些數據與電網的電流水泵以及歷史功率使用模式相結合。通過分析來自多個數據源的巨大的實時數據流和歷史數據,能夠確定司機為汽車電池充電的最佳時間和地點,并提示充電站的最佳設置點。陽后,系統需要考慮附近充電站的價格差異,即使是天氣預報,也要考慮到。系統采用了為某個特定目的而生成的數據,并將其重新用于另一個目的,換言之,數據從其基本用途移動到了二級用途。這使得它隨著時間的推移變更更有價值。

感嘆:數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。

4、數據創新1:數據的再利用。亞馬遜,讓數據的價值再大一點:未能理解數據再利用重要性的公司以慘痛的代價換來了經驗教訓。例如,亞馬遜早期與AOL達到了一項協議,為AOL電子商務網站提供了后臺技術服務。在大多數人眼里,這只是一個普通的外包協議,而亞馬遜真正的用意在于掌握用戶的數據:他們在看什么、買什么。這些數據可以幫助亞馬遜提高它的推薦引擎性能。可憐的AOL從來沒有意識到這一點,只看到了銷售這個基本用途所帶來的利益;而聰明的亞馬遜去知道如何從二次利用中獲利。

5、數據創新2:重組數據。隨著大數據的出現,數據的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和本身的價值也比單個總和更大。

6、數據創新3:可擴展數據。在收集數據時強調擴展性方面,谷歌毫無疑問是做得最好的公司之一。街景不僅拍攝了房屋和道路的照片,還同時采集GPS數據,檢查地圖的信息,甚至還加入了無線網絡名稱。這些數據之所以具有可擴展性,是因為谷歌不僅將其用于基本用途,而且進行了大量的二次使用。

7、數據創新4:數據的折舊值。潛在價值的概念表明,組織機構應收集盡可能多的使用數據并保存盡可能長的時間。同時也應當與第三方分享數據,前提是要保留所謂的"延展性"權利。這樣一來,由數據再利用而產生的任何商業價值,原始數據擁有者都能從中分到一杯羹。數據收集者和擁有無法想像數據再利用的所有可能方式,這一點幾乎是不言自明的。

8、數據創新5:數據廢氣。谷歌,從大的“噪音”數據中受益。谷歌敏銳地注意到,人們經常搜索某個詞及其相關詞,點擊進入后卻未能找到想要的信息,于是又返回到搜索頁面繼續搜索。它知道人們點擊的是第1頁的第8個鏈接還是第8頁的第1個鏈接,或者是干脆放棄了所有搜索點擊。谷歌不是第一個洞察到這一點的公司,但它利用這一點并取得了非凡的成果。這些信息是非常有價值的。如果許多用戶都點擊搜索結果頁底部的鏈接,這表明這個結果更加具有相關性,谷歌的排名算法就會自動地在隨后的搜索中將它提到頁面中比較靠前的位置。一位谷歌的員工說:“我們喜歡從大的“噪音”數據集中吸取教訓”。

9、數據創新6:開放數據。政府才是大規模信息的原始采集者,并且還在與私營企業競爭他們所控制的大量數據。政府與私營企業數據持有人之間的主要區別就是政府可以強迫人們為他們提供信息,而不必加以說服或支付報酬。"開放政府數據"成為當前的一大難題。

10、給數據估值:如何給數據估值?一個辦法介從數據持有人在價值提取上所采取的不同策略入手,最常見的一種可能性就是將數據授權給第三方。在大數據時代,數據持有人傾向于從被提取的數據價值中抽取一定比例作為報酬支付,而不是敲定一個固定的數額。這有點類似于出版商從書籍、音樂或電影的獲利中抽取一定比例,作為支付給作者和表演者的特許權使用費。這樣一來,各方都會努力使數據再利用的價值達到最大。

數據價值的關鍵是看似無限的再利用,即它的潛在價值。收集信息固然至關重要,但還遠遠不夠。因為大部分的數據價值在于它的利用,而不是占有本身。

06 角色定位 ? 數據、技術與思維的三足鼎立

1、微軟以1.1億美元的價格購買了大數據公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數據的ITA Software公司。如今,我們正處在大數據時代的早期,思維和技術是最有價值的,但是最終大部分的價值還是必須從數據本身中挖掘。

2、數據科學家:是統計學家、軟件程序員、圖形設計師與作家的結合體。與通過顯微鏡發現事物不同,數據科學家通過探尋數據加來得到新的發現。全球知名咨詢管理公司麥肯錫,就曾極端地預測數據科學家是當今和未來稀缺的資源。

3、三種大數據公司:第一種是基于數據本身的公司;第二種是基于技能的公司;第三種是基于思維的公司。

4、全新的數據中間商:三個角色誰是最核心的?

技術?隨著大數據成為人們生活的一部分,而大數據工具變得更容易和更方便使用,越來越多的人會掌握這些技能,所以這些技能的價值就會相對減少。所以,數據擁有者們也會真正意識到他們所擁有的財富。因此他們可能會把他們手中所擁有的數據抓得更緊,也會以更高的價格將其出售。

5、數據科學家的崛起

6、大數據,企業的競爭力

蘋果,挖出“潛伏”的數據價值:在蘋果推出之前,移動運營商從用戶手中收集了大量具有潛在價值的數據,但是沒能深入挖掘其價值。相反,蘋果公司在與運營商簽訂的合約中規定運營商提供給它大部分的有用數據。通過來自多個運營商提供的大量數據,蘋果公司所得到關于用戶體驗的數據比任何一個運營商都要多。蘋果公司的規模效益體現在了數據上,而不是固有資產上。

大數據讓處于行業兩端的公司受益良多,而中等規模的公司要么向兩端轉換,要么破產。傳統行業最終都會轉變為大數據行業,無論是金融服務業、醫藥行業還是制造業。

隨著大數據越來越精確地預測世界的事情以及我們所處的位置,我們可能還沒有準備好接受它對我們的隱私和決策過程帶來的影響。我們的認知和制度都還不習慣這樣一個數據充裕的時代。

感悟:在當下,大數據思維公司比大數據技術公司更有前途。

07 風險......讓數據主宰一切的隱憂

1、我們時刻都暴露在“第三只眼”之下:亞馬遜監視著我們的購物習慣;谷歌監視著我們的網頁瀏覽習慣;而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關系網。

2、預測與懲罰,不是因為“所做”,而是因為“將做”,即使他們事實上并沒有犯罪。警方可以運用大數據對犯罪趨勢進行預測。

3、數據獨裁:大數據大大地威脅了我們的隱私和自由,這都是大數據帶來的新威脅。但是與此同時,它也加劇了一個舊威脅:過于依賴數據,而數據遠遠沒有我們所想的那么可靠。只要得到了合理的利用,而不單純只是為了數據而數據,大數據就會變成強大的武器。

谷歌流感趨勢,大數據讓我們知道了流程的地區,并不是說隔離這個地區的所有人。這樣既無必要也太費事。所以,我們有了需要隔離的人的數據,聯邦特工只需要通過IP地址和移動GPS提供的數據,找出該用開始戶并送入隔離中心即可。

感悟:凡事“中庸”一些,對大數據也不例外。

08 掌控......責任與自由并舉的信息管理

1、當世界開始邁向大數據時代時,社會也將經歷類似的地殼運動。在改變人類基本的生活與思考方式的同時,大數據早已在推動人類信息管理準則的重新定位。然而,不同于印刷革命,我們沒有幾個世紀的時間去適應,我們也許只有幾年時間。

2、管理變革1:個人隱私保護,從個人許可證到讓數據使用者承擔責任。對大數據使用進行正規評測及正確引導,可以為數據使用者帶來切實的好處:很多情況下,我們無須再取得個人的明確同意,就可以對個人數據進行二次利用。

為實現這一平衡,監管機制可以決定不同種類的個人數據必須刪除的時間。再利用的時間框架則取決于數據內在風險和社會價值觀的不同。

3、管理變革2:個人動因VS預測分析:在大數據時代,關于公正的概念需要重新定義以維護個人動因的想法:人們選擇自我行為的自由意志。簡單地說,就是個人可以并應該為他們的行為而非傾向負責。

4、管理變革3:擊碎黑盒子,大數據算法師的崛起。大數據的動作是在一個超出我們正常理解的范圍之上的。在這些背景下,我們能看到的大數據預測,運算法則,和數據庫有變為黑盒子的風險,這個黑盒子不透明、不可解釋、不可追蹤,因而我們對其信息全無。為了防止這些情況的出現,大數據將需要被監測和保持透明度。當然還有使這兩項得以實現的新型專業技術和機構。如外部算法師和內部算法師。數據算法師對大數據進行深度分析。如此,因為大數據而變得可預測的世界,才不會陷入一個用一種未知取代一個未知的困境中,不會變成一個黑匣子。

5、管理變革4:反數據壟斷大亨。

結語......正在發生的未來

1、大數據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案。幫助是暫時的,而更好的方法和答案還在不久的未來。

2、我們“做新、做多、做好、做快”的能力能釋放出無限價值,產生新的贏家和輸家。大部分的信息價值來自二級用途,即潛在價值,而不是我們所習慣認為的基本用途。結果對于大多數據來說,盡可能多地收集、等待信息增值并且讓其他更適合挖掘價值的人來分析它才是明智之舉

3、大數據并不是一個充斥著運算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的。因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱和固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這才能推動世界的進步。

感悟:大數據的力量是那么耀眼,我們必須避免被它的光芒誘惑,并善于發現它固有的瑕疵。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容