第一次翻開的時候,看了眼開頭幾頁,又合上了,覺得太過枯燥。
今天再把這本書翻出來,看到數據推動人工智能發展這一節,馬上蹦起來,開始做筆記。
而后又捧著閱讀了三遍,作為一個文科生來說,全書看起來通俗易懂,涉及復雜原理時使用很明朗的解說,適合沒有基礎的人閱讀。
用幾句話來總結內容,那就是:大數據推動人工智能發展,全方面改變了人的生活,并且在接下來的時間里,會逐漸演變為一場智能革命,無數人和不接受改變的企業將被淘汰。
智能時代,未來已來
1.數據——人類建設文明的基石
信息是關于世界、任何事物的描述,而數據則是將信息描繪清楚,用于承載信息
文明伴隨著對數據的使用:獲取數據→分析數據→建立模型→預測未來
數據的相關性,任何數據都離不開概率論和統計學
a.例:日本人通過人民日報上刊登的鐵人王進喜照片,獲取了大慶油田準確的信息,成功中標*
b.Google用戶在不同時間點對某個電視節目的搜索量,四個高峰對應美國四個時區
c.針對各地用戶在Google上搜索的H1N1關鍵詞,訓練出線性回歸模型
統計學:數理統計,建立在概率論之上,收集、處理和分析數據,找到數據內在的關聯性和規律性的學科。
要想獲取準確的統計結果,首先要求數據量充足和具有可代表性。(量和質)
a.1936年美國大選,民意調查機構收回240w份問卷,喬治·蓋洛普經過民族,性別,年齡收入等因素調查了5w個樣本,卻更具有代表性,蓋洛普預測勝利
b.而后在預測1948年大選結果失敗,原因是影響大選結果的不止民族、性別、年齡、收入等因素,還有更多的因素組合他們沒有考慮,這次失敗直接導致蔣介石先生壓寶失敗,與美國關系惡化
數學模型是數據驅動方法的基礎
a.采用什么樣的模型
b.模型的參數是多少
c.在工程上,采用多而簡單的模型常常比一個準確的模型成本更低,也被使用的更普遍,其實只要數據量足夠,就可以用若干個簡單的模型取代一個復雜的模型,這種方法被稱為數據驅動方法。
2.大數據和機器智能
讓一臺機器和一個人坐在幕后,讓一個裁判同時與幕后的人和機器進行交流,如果裁判無法判斷自己交流的對象是人還是機器,就說明這臺機器有了和人同等的智能——圖靈測試
傳統的人工智能模仿人類智能的產生,讓計算機按照人的思路去做,而現代科學家基本采用:機器智能最重要的是能解決人腦所解決的問題,而不在于是否采用和人一樣的辦法。
另辟蹊徑:用統計+數據實現人工智能的另一條發展道路,用大量的文本&語音數據做訓練,則是數據驅動方法,隨著數據量的積累,系統會變得越來越好,量變帶來質變。
a.2005年NIST測評Google團隊的勝利
b.1996年深藍戰勝卡斯帕羅夫
大數據的特征
a.大量
b.多樣性&多維度——例:民意調研與百度搜索(知道)提問的區別*
c.完備性——Google翻譯系統用“死記硬背”全面覆蓋句子
不能獲得完備數據時,局部完備性也可以幫到我們
機器智能的問題逐漸演變成=>大數據和大量計算的問題
3.思維的革命
思維方式決定科學成敗
a.從歐幾里得、托勒密到牛頓,思維方法和方式遠不如方法論對科學發展的重要性,東方文明長期以來在技術上領先西方,但在科學體系的簡歷上,遠遠落后,關鍵是在方法論上。
b.托勒密方法論:通過觀察獲得數學模型的雛形,然后利用數據來細化模型。 訓練AlphaGo使用的Google大腦,就是簡單的人工神經網絡在幾萬臺服務器上復雜的實現。
c.而托勒密方法論有兩大缺陷:首先整體模型很復雜,第二缺陷是確定性假設,假定模型一旦產生,就是確定的和不會被改變的。
機械思維:牛頓的方法論——所有問題都有一個通用的解決辦法
a.世界變化的規律是確定的
b.因為有確定性作保障,因此規律不僅可以被認知,而且可以用簡單的公式或者語言描述清楚
c.這些規律是通用的,可以應用到各種未知領域指導實踐
牛頓找到了開啟工業革命大門的鑰匙,而瓦特拿著這把鑰匙開啟了工業革命的大門。
機械思維直接帶來工業大發明時代
a.機械思維的兩面性——善用把握確定性而難以解決不確定性的問題
b.世界的不確定性——上帝也擲色子
世界變量太多,多到無法通過簡單的方法或者公式算出結果
客觀世界本身
熵,香農兩大定律
a.香農第一定律(香農源編碼定律):假定一個信息源,里面是N種信息,現在我們對著N種信息進行編碼,編碼的平均長度一定大于該信源的信息熵
b.香農第二定律:信息的傳播速度不可能超過信道的容量
大數據的本質
a.承認世界的不確定性,很多智能問題從根本上講無非是消除不確定性的問題。
b.從因果關系到強相關關系
c.落后最可怕的地方是思維方式的落后
4.大數據與商業
從數據中尋找規律
a.例:利用智能電表用電量統計找到室內種植大麻者和偷稅漏稅者
b.百貨商店利用大數據多維度特征把握有剛需的用戶,針對性推薦商品
技術改變思維方式,一些傳統企業從線下到線上轉型,互聯網公司由數據得出用戶畫像,進行個性化推薦,呈現全新形態
a.亞馬遜個性化商品推薦
b.Netfix電影推薦
c.Google相關性搜索
大數據商業的共同點
a.數據流
*從很多不同的地方(不同的人)收集上來,這些數據生成時是彼此獨立的,未加工的,原始的,無目的的。
從分析中得出結論,怎樣使用它們需要視特定的應用而定*
b.把控細節
*從大數據中找到普遍規律,再應用于每一個具體的用戶,影響每一個具體的操作
把控每一個行為細節,對商業或者經營方式做改良*
**新技術(蒸汽機、電、摩爾定律、大數據、機器智能)+原有產業=新產業 **
技術改變商業模式,我們得到三個結論
a.技術革命導致商業模式的變化,尤其是新的商業模式的誕生
b.生產越來越過剩,需求拉動經濟增長的模式變得不可逆轉
c.商業模式的變化既有繼承性,又有創新性
新產業的締造,不可避免帶來商業模式的變化,進而導致社會生活方式的變化。
*工業革命——機器替代手工業,瓷器,紡織品大量生產,價格大度下降
第二次工業革命-電——現代傳媒和通信業發展*
大部分現有產業加上新技術等于新產業,但并非每一家公司都要從事新技術產品本身的制造,更多時候它們是利用新技術改造原有產業,只有思維上跟上新的時代,才能立于不敗之地。
5.大數據和智能革命的技術挑戰
每一次技術革命除了有生產力發展的需要,還要有甚多技術準備,只有當這些必要的技術都成熟時,技術革命才能變成可能。
現代生活中大數據的來源
a.電腦
b.傳感器
c.過去的那些非數字化式存儲的信息,將它們數字化
信息的存儲
a.數據傳輸技術的突破
b.信息的處理和收集
通過技術處理數據
a.并行計算和實時處理,利用:MapReduce、Hadoop等工具
b.任何問題總有一部分計算是無法并行的,這類計算占比越大,并行處理的效率越低,并且無法保證每個小任務的計算量相同,使用的處理器越多,并行計算的效率越低。
c.針對大數據的實時處理需要開發更多新的工具,而不是簡單的把過去的工具并行化。
數據挖掘是機器智能的關鍵
a.大數據的原始數據往往是沒有固定格式,雜亂無章的,因此第一步就是對數據的過濾和整理,去除與要解決的問題無關的維度,對問題相關的數據內容進行格式化整理,以便進一步使用。
b.機器學習:機器學習是一個不斷迭代,不斷進步的過程,即:期望值最大化,事先定出一個學習的目標,這些算法就會不斷的優化模型,讓它越來越接近真實的情況。
-數據量大,但采用簡單的模型,比較少的迭代次數,用大量的數據做一個淺層的機器學習
-數據量較小,但是采用比較復雜的模型,經過很多次迭代訓練出準確的模型參數
大部分機器學習算法是等效的,只有量的差別,而沒有質的差別,而量的差別可以通過模型和數據量來彌補。
數據安全
a.保證用戶的數據不損壞,不丟失——云端具有極大的安全性
b.保證數據不被偷走或者盜用
利用使用規則,行為習慣大數據來防范黑客攻擊
隨著技術發展,生活的便利個個人隱私產生矛盾,隱私被更大化泄露
例:航空公司利用用戶數據分析用戶性格提高票價
如何保護隱私
a.預處理:從收集信息一開始就對數據進行預處理,使預處理后的數據保留了原來的特性,仍能處理數據,卻“讀不懂”數據的內容
b.雙向監視:當窺視者試圖侵犯隱私,就必須以自己的隱私來做交換
6.未來智能化產業
農業、體育、制造、醫療、律師、記者、編輯等行業職業的變化,大數據分布在各個領域的暢想——此處省略= =
7.智能革命和未來社會
這是最好的時代,也是最壞的時代。
從某種角度上看,智能社會無疑是迄今為止人類文明史上最好的社會,但是另一方面,也給我們帶來了空前挑戰,機器越來越多占據了我們的工作機會。
a.2014年上海外灘踩踏事件為例,百度隨后開發了預測熱門城市和景點擁擠的相關服務。
b.美國某X團隊開發出一整套基于智能手機與移動設備規劃城市交通和優化每個人雛形的智能交通系統
c.大數據給反恐帶來曙光,杜達耶夫在用手機通話時,空中預警機根據無線電波鎖定位置,發射導彈將其炸死
社會將會變得更加精細化,每一樣交易都會被利用區塊鏈技術徹底追蹤
從標準化到個性化的服務
個性化制藥為每一個人定制化特效藥品,以及各種個性化針對性服務
負面影響——無隱私社會
a.大數據和機器智能引發的隱私問題會非常嚴重,我們將不再有隱私可言,我們收入的多少,學歷的高低這些方方面面的細節都是隱私
b.隱私的泄露可能涉及健康和醫療,保險公司可能拒絕對那些可能得致命性疾病的人提供保險,航空公司提高票價謀取利益現在正實時發生著
c.隱私就像自由,只有當人們失去它的時候,才知道它的可貴
機器人將搶掉人的飯碗
a.當機器變得足夠聰明,一定會取代人類完成很多需要高智力的工作
b.歷史上影響力可以和正在進行的智能革命相比的,只有18世界末始于應該的工業革命,19世紀下半葉始于美國和德國的第二次工業革命、“二戰”后以摩爾定律為標準的信息革命,一共是三次。這三次技術革命都有一個問題共同的特點,那就是它們對當時的社會產生了巨大的沖擊,都需要經過大約半個世紀或者更長的時間才能消化掉。
爭當2%的人
任何一次技術革命,最初受益的都是發展它、使用它的人,而遠離它、拒絕接受它的人,在很長的時間里都將是迷茫的一代。