本人java出身,百度web攻城尸一枚,以為自己這一輩子都只和web對干,突然有一天被老大叫到小黑屋里后出來立馬華麗麗地“轉職”,變成了一枚當下很火的數據工程師,接手了電商項目的數據平臺工作,這是人生第一次從無到有做一個項目,之前也從未接觸,當時由于正好被升職,頭腦熱呼呼的,管她媽媽是誰就這么上了,干了個半年,體會到做數據還真的有點無聊,對應的pm也由于上面的決策沒法推動產品,我這半年一直忙于工程很少摻和業務產品的事情,但是我是在一個業務研發部門搞基礎建設一沒這個資源和條件,二上面確實也不是最關心;那我怎么辦,大家都說數據是黃金,我拿著黃金卻不會花,我想哭啊想哭!古人云:書中自有黃金屋;那好去看書學習,在同事和網友們大力推薦下找到了一本書《集體智慧編程》,也就是我這一系列的源頭所在,覺得我寫的不給力,可以直接去找原文看看,
說了以上的廢話,就當是我闡述我看這本書的背景了,用以激起同路人(數據挖掘、機器學習小白)的共鳴,哈哈,那就進入開篇正題吧。
背景介紹
Google和最近推出紙牌屋的Netflix這兩家公司相比家喻戶曉了,它們有什么共同之處?——算法先進牛叉!將來自不同人群的數據加以組合進而得出新結論并創造出新的商機,這種信息采集、以及對其加以解釋的計算能力已經激發起了很多巨大的協作型商機,并且加深了對用戶和顧客更好的理解。約會網站幫助人們更快地找他們好”機油“,預測機票價格的公司不斷涌現,為了創造更有針對性的廣告,每一個企業都想更好地了解他們顧客,這僅僅是集體智慧這一新興領域的幾個例子而已,層出不窮的新服務意味著每天都會有新的商機涌現。筆者絕對相信,理解機器學習和統計學在許多不同領域都會變得愈加重要(堅決抵制自賣自夸的無節操行為)
什么集體智慧?(Collective Intelligence)
通常的含義是為了創造新的想法,而將一群人的行為、偏好或思想組合在一起。集體智慧真正關注的是從獨立的數據提供者那里得出新的結論。
比如金融市場,價格并不是由某一個個體所決定,它由許多獨立個體交易行為共同決定,大量的參與者根據他們對未來價格信息進行契約交易,這樣的市場在價格預測效果方面,往往也被認為要比獨立進行預測的專家們表現的更好,這是因為市場將知識、經驗和成百上千人的意志組織在一起,形成了一種不依賴個人觀點的預測。
盡管集體智慧在Internet之前就已經存在,單自從有了Internet,從數千上萬網民中搜集信息的能力為人們提供更多的可能,一直以來,人們都在利用Internet購買所需、搜索信息、需找娛樂等等,所有行為都在不需要你費力地被監控下來,你幾乎毫無感覺,但是這些信息卻可以組織到一起提取出新的價值。
什么是機器學習?
機器學習是人工智能AI(artificial intelligence)領域中與算法相關的子域,它允許計算機不斷地進行學習。大多數情況下,這相當于將一組數據傳遞給算法,并由算法推斷出與這些數據的屬性相關的信息——借助這些信息,算法就能夠預測出未來可能會出現的其他數據。這種預測是完全有可能的,因為幾乎所有非隨機數據中,都會包含這樣或者那樣的“模式”,這些模式的存在使機器得以據此進行歸納。為了實現歸納,機器會利用它所認定的出現于數據中的重要特征對數據進行“訓練”,并借此得到一個模型。
許多機器學習算法都倚仗數學與統計學,簡單的相關性分析和回歸都是機器學習的基本形式,本系列不是晦澀難懂的理論學習,筆者盡可能直觀解釋
機器學習的局限
機器學習算法受限于其在大量模式之上的歸納能力,而一個模式如果不同于算法先前曾見過的任何其他模式,那么它就很可能被“誤解”。也就是說機器學習方法只能憑借已經見過的數據進行歸納,而且歸納的方式受到了很大的限制
來點真實生活
像Google、Amazon、Netflix之流這里就不再給他們做廣告了。就那市場預測來說,像剛才提及的金融市場,都是集體智慧的一種形式。我要說一個例子是關于Hollywood Stock Exchange,在那里人們可以進行涉及影片和影星的模擬股票交易。我們可以按照影片的當前價格買賣股票,其對應的價值相當于電影實際首映票房收入的百萬分之一。因為價格是通過交易行為來設定的,所以價值不由任何個體所決定,這時該股票的價格其實就是整個群體對電影票房收入數字的預測,這種預測往往都優于某位專家給出的預測。
開篇總結
本系列不是新的知識,但是學習和掌握機器學習對自己未來的工作還是生活都是有益的,因為這是這個時代的大勢所趨。下一篇是本系列的正文開篇,主題和大家一起實踐如何推薦商品