現在談這個問題可能會讓大家笑話,似乎所有人都知道大數據能干這個,能干那個,最后連我們自己都覺得可笑。大數據已經都不是被“妖魔化”了,是“娛樂化”。大數據似乎是個離我們忽遠又忽近的事物了,變得不真實起來。
近兩年來,大數據被應用到影視制片行業,基于對觀眾偏好的分析,去預測、設計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關的角色,甚至可以去預測票房。這些所有的預測都是基于數據的基礎上,經過一定的模型處理,得到接近真實的結論。從某種程度上給決策者決策的依據,比如《紙牌屋》和《星星》。
大數據還有一個重要的作用,就是解決人們的“選擇”問題。別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。講的學術一些,這是由于“長尾效應”導致的問題;講得通俗一些,就是由于日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。
科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復雜的商品(電商),到海量曲庫中的樂曲;從婚戀網站的男女朋友,到交通管理的信號燈。
基于人工智能下的大數據,就是可以使人們“變懶”的一個手段。基于你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結果,推薦給你。這就是大數據,她是你的貼心管家,或者說是最懂你的朋友。
不要以為是海量數據就一定會有價值,在過往的工作中,我們經常發現來自甲方的數據源有80-90%的數據都是無用的。只有10%-20%的數據才會產生一定的價值。這就又讓我想到Marry
Meeker打的那個比喻,“大數據的工作就像在一堆稻草中尋找一根針”。
何況,大多數領域本身業務屬于早期,所擁有的數據非常貧乏。冷啟動、稀疏性是大數據在諸多領域面臨的挑戰。
另一方面,對于不同領域,不同項目,沒有放之四海而皆準的算法,必須要根據具體問題具體分析解決。在實際的工作中發現,不只是不同的領域(如文章推薦與商品推薦),甚至同一領域的不同單元(同屬電商但不同類電商,如母嬰類和服裝類或者奢侈品類)也有所不同。