《智能時代》讀書筆記

大數據是一場以數據為基礎的,改造各種行業的一場革命。真正意義上的大數據要符合三種特征,大量的,多維度的(相關的數據模型),完備性。當同事滿足這三種狀態,通過各種設備終端大量采集的數據,構建機器學習的模型,在某個特定的領域可以實現更智能,比如翻譯,adwords廣告,自動駕駛(自動駕駛其實是在采集過的道路上行駛時沒有問題的,但是在沒有采集的路段是無法行駛的)等。

機器學習

已google搜索為例子:

  • 第一:根據網頁確定哪些用戶在谷歌未過的復雜問題,可以回答那些回答不了,我們大約漲到了70%到80%的問題,在谷歌第一頁都能找到正確答案。
  • 第二,把位體和網頁中的每一句話做一匹配,消除那些可能是男的片段,至于怎么調就是機器學習的東西了。
  • 第三,就是利用自然語言處理技術,把答案的片段合成一個完整的段落。
    在智能機器,它背后是數據中心強大的服務器集群,從數據中學習信息和知識,這次技術革命的特點是機器的智能化,我們稱之為智能革命。因為有了大量的數據,機器智能就從量變到質變到學習變成了可能。

思維的革命

在無法確定因果時,數據為我們提供了解決問題的新方法,數據中所包含的信息可以幫助我們消除不確定性而數據之間的相關聯,而數據之間的相關聯性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這邊是大數據思維的核心。


所謂的機械思維就是,從確定中推導一切,有一定的因果關系。正因為過去兩百年之間的,牛頓、愛斯坦推等科學家了世界,時間,空間,地球運動等都是有規律的,所以人們的思維固定在,所有的事物都會有規律的,有因果關系上。牛頓通過自己偉大的成就,宣告科技科學時代的來臨,作為思想家,他讓人類相信,世界萬物的運動規律是可以被認識的,他告訴認為世界萬物是運動的,而且這些運動規律,有著確定性的規律,這些規律又是可以被認識的。

牛頓的方法論可以概括為機械思維,其核心思想可概括為以下三個方面:

  • 因世界變化的規律是確定的。
  • 因為有確定性做保障,因此規律不僅可以被認識,也可以通過簡單的公式或者語言描述清楚
  • 這些規律應該是放之四海而皆誰的,可以用到各種未知的領域做指導。

這些其實是機械思維中積極的本質。


整個歷史進程起是:理論,規律,發明,實踐,爆發。也提醒我們,在一個行業里面的經驗規律,其實可以應用到其他行業的。

世界發展到今天,大的東西被我們發現的差不多的時候,當印因果關系不能解決,我們身邊中很多其他的問題時候,對一個事物了解的越多越細致就會發現,夢想世界的變量其實非常多,不能通過簡單的辦法,或者公式來計算出來,人們把他們歸為不確定的一類。當不確定的問題無法解決的時候大數據,大數據就提供了我們一種思路。其實想想中醫以后就可以通過大數據來查找那些藥品,對我們人類是一個很有益處的。中醫往往可以治得了某些人病,但是某些人卻吃不了,其中,肯定會有某個藥物對人類卵細胞是一次有規律的,如果通過大數據到計算能力,而不是通過人來,相信中醫會有一個更好的發展。

不需要知道為什么只需要知道怎么辦就好。


科學方法論的思想 : 大膽假設,小心求證。包括整個說服科學,行為科學,都是建立在大量的,實驗對比,驗證的,實踐基礎上,總結出來的規律。

香農理論(最初是用在信息類的上面,他把世界的不確定性和信息聯系了起來。)

  • 我們對某件事情一無所知的時候,就需要大量的信息
  • 如果我們對某件事情已經有足夠多的了解,那么就不需要太多的信息,我們就能把它搞清楚。

信息的度量就等于不確定性的多少,這樣香濃就把熵和信息量聯系了起來,要想去除系統中的不確定性,就要引入大量信息。信息論是完全建立在不確定性的基礎之上。

信息時代的方法論,誰掌握了信息就誰就能獲得財富。
就像在工業時代,誰掌握了資本,誰就獲取了財富。


大數據的特征,量大,多維度,完備性。數據的完備性的重要,當兩個數據源完全一致時。他們的交叉熵等于0,當它們相差較大時,它們的交叉熵也很大。所有采用數據驅動的方法,建立模型作用的數據和使用模型的數據之間需要一致的,否則這種方法就會失效,而交叉熵,就是對這種代表性或者一致性的一種精確的量化度量。從而避免出現黑天鵝效應(以前沒有到澳大利亞之前,都是白天鵝,但是到澳大利亞之后就有了,黑天鵝,這之前的猜測都是錯的)。
所以大數據源的量大其實是為了消除信息的不確定性。

從因果關系到強關聯關系,從機械思維到大數據思維

比如谷歌的,adwords點擊模型。搜索排序占70%到80%的權重,英關系已經變成相關聯性的。所以后面的商業邏輯都是圍繞了,建立獲取相關性而展開。

總結:

機械思維和大數據思維并非對立的,如果我們能找到,確定性和因果關系,機械思維依然是最好的結果。如果我們想消除信息中的不確定性,數據之間的 相關性在某種特殊程度上可以取代原來的因果關系,幫助我們得到我們想要的答案,這便是大數據思維,后者更多是對前者的補充,在新的時代,一定要有新的方法論,也一定會產生新的方法論。

大數據與商業

總的思想是在新的居住環境下把那些人,過去不確定性,不好解決的,用大數據的思維解決掉。李子這里講了一個美國偷稅漏稅的例子,查看用電量就可以知道,和種植毒品的例子。

巨大的商業利好相關性,時效性,個性化的重要性

商品直接蓋章推介商品,推薦新聞,個性化是笑話,最重要的一個例子就是一個父親不知道一個少女懷孕的例子。
很多產業都可以通過一個,IFID芯片,來搜集數據,從而來獲得數據,改善用戶體驗。

窮舉法依靠大量的數據,來無限逼近事實的真相,從而解決我們生活中的問題。

這里有一個谷歌汽車的例子,無人駕駛,其實整個道路都被掃描了一遍數據,其中一個例子啊,只是道路上多了一個黑色狀物,谷歌汽車卻不知道怎么走了,其實就是在之前的掃描數據之前沒有個東西,從而不知道該如何處理。如果說是技術不達標,其實不如說是數據缺失的問題。

大數據智能革命的挑戰。

從技術存儲,接收,處理,時時,還有很多機器學習的算法,比如人工神經網絡算法,最大熵模型,邏輯自回歸。

機器學習的過程是一個不斷迭代,不斷進步的過程,只要事先制定出一個學習的目標,這樣雙方就會不斷的優化模型,讓它越來越接近真實的情況,可以說機器學習學的算法迭代次數越多,學習的越深入,得到數據模型就越好。

  • 數據量大,采用比較簡單的模型,而比較少的地段成熟,也就是說用大量的數據做一個虔誠的機器學習,
  • 數據量小,就采用比較復雜的模型,而且經過很多迭代次數,訓練出準確的模型參數。

未來的智能化產業

未來的農業

以色列的沙漠種植的例子,將滴水管線直接送水和肥料到植物的根系,節約了大量的水和肥料。

未來的體育業

你如果風險投資人好工程師,男隊勇士隊,打法,從24英尺外的,三分線投籃。通過數據分析,和統計,最有效的進攻是眼花繚亂的傳球和準確的投籃,而不是彰顯個人能力,勇士隊隊員苦練投籃神器。

未來的制造業

個人定制化,c2b的過程。把自己作為一個,利用大數據給客戶提供個性化服務的定位。

未來的醫療

根據不同人的基因,不同人的身體素質,用不同的藥,而且對人體進行監控,把疾病那個殺在搖籃中。

未來的媒體。

對于簡單的,股票類的新聞都可以達到機器來自動編寫。

智能社會

這是最好的時代,也是最好的時代,這是英國文豪狄更斯在著名的《雙城記》開篇的一句話。智能革命無疑將給我們帶來一個更美好的社會,它是智能的,精細化的,人性化的。同時社會資源的利用率極大提高,就要做到社會的精細化。

區塊鏈技術

區塊鏈是我們每一筆交易都會被追蹤它無法被偽造,是一串由隨機算法產生的隨機數,被存儲在區塊中。

從標準化服務到個性化服務

最切合實際的就是用醫療資源為每個人做病人服務,一方面一個人都積累了完整的你自己健康狀況相關的數據,另一方面醫院有,完備的數據。

關于隱私

很多隱私其實都是我們自己泄露的,建立在,別人的善意上,根本靠不住。如果保險公司能獲取到每個人都得了什么病,從而拒絕,給其提供保險,那將是很可怕的。

機器搶掉人的飯碗

從前三次的工業革命有一個共同特點,它會對社會,產生了巨大沖擊,它需要經過大約半個世紀甚至更長的時間,才能背會消化掉。我們這代人要經過幾個時期,嬰兒需要,我們必須有快速的學習能力才能生存。

智能革命的沖擊

智能革命對社會的沖擊是巨大的,它會影響到上至國家,中到企業,下至個人的命運。

  • 首先信息革命本身帶來的影響還沒有消化完。
  • 其次,今天和兩百年前已經不同,消化掉技術革命的影響要比工業革命來得多
  • 最后也是最重要的一點,智能革命所要期待的是人類最值得自豪的部分--大腦。

到了智能革命后,任何簡單的腦力工作都會消失,甚至那些現在從事所謂高大上的職業也會失去工作。

爭當2%的人

在歷次技術革命中,一個人,一家企業,甚至一個國家,可以選擇的道路,只有兩條,要么進入前2%的行列,要么被淘汰,抱怨是沒有用的。
大家要接受一個新的,所謂方式,利用好大數據和機器智能,首先受益的是和那些產業相關的善于利用新技術的人。

思路例子:
在電子商品上加電商的入口功能,從而就變成了一家服務的企業(冰箱上增加購物的入口,或者在內部裝一個檢測器,需要什么東西)。
賣茶葉,從而記錄每天進來多少人?沒來過的什么茶?什么時候來?什么時候完成交易?你是否有回頭客?他們是誰?如果顧客買了一次不來了?我是為什么常年客每年消費多少茶葉?男人經常消費的是哪種茶葉價位多少?店面外每天的人流情況是如何?你所要做的事,就是找到他們經常買茶葉的人,和他們建立長期的供貨需求,這樣就會有一個穩定的收入,而且渠道成本很低。

寫在最後

在智能革命到來之際,每個人都有兩種選擇,要么觀望徘徊,最后被淘汰,要么加入,到這2%的人,做愿意吃螃蟹的人,成為這2%的收益者。

首發地址: https://changyuan.github.io/2016/10/16/big-data-time/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 前言 人類的勝利 alphago戰勝李世石,宣告了機器智能時代的到來。 機器獲得智能的方式和人類不同,它不是靠邏輯...
    郭華明V閱讀 9,256評論 3 14
  • 第一次翻開的時候,看了眼開頭幾頁,又合上了,覺得太過枯燥。 今天再把這本書翻出來,看到數據推動人工智能發展這一節,...
    心里住了一只羊閱讀 681評論 0 3
  • 推薦序(李善友) “用不確定的眼光看待世界,再用信息來消除這種不確定性”,是大數據解決智能問題的本質。 世界的不確...
    維特的墓地閱讀 2,429評論 0 3
  • 什么是大數據 我經常在生活中聽到各種人宣稱我們要如何如何利用大數據,利用大數據思維來做"精準營銷"等類似這樣的話。...
    書呆子的復仇閱讀 774評論 0 1
  • 關于本書作者: 吳軍,得到訂閱號《硅谷來信》的作者。計算機科學家,谷歌智能搜索算法的發明人,也是一位投資人,還是一...
    今日說閱讀 564評論 0 0