數據科學是什么
數據挖掘、機器學習、人工智能都是數據科學的一個分類。
接下來,我們從這幾個方面來剖析一下數據科學
- 制定目標
- 收集和管理數據
- 建立模型
- 評價和批判模型
- 展現結果
- 部署模型
制定目標
為什么要做這個事情
- 提升銷量
- 減少退貨損失
- 提升轉換率
收集和管理數據
收集
- 初步探索(最大值、最小值、平均值、中位數、分位數、方差、標準差)
- 可視化操作
管理
- 發現有用的數據
- 不斷的探索
在收集數據和數據模型之間不斷反復
建立模型
建立數據模型是數據科學的核心
分類
預測某個東西屬于哪個類別,使用最廣泛
應用領域
- 銷售預測
- 用戶購買行為預測
- 款式查重
- 人臉識別
- 聲音識別
- 圖片學習
- 深度學習
首先有一個很大的類庫,打上標簽,通過分類算法,找出共性,學習完成之后,就可以進行分類了。
支付寶上已經在這方面取得了一些成功。
打分
為某事件預測一個數值(比如購買概率、定價)
引用領域
- 推薦引擎
- 定價模型
預測一個商品的打分,給特定的人定價格。
AlphaGo就是利用的打分和分類
排名
排序
和打分很類似
聚類
某個東西現在屬于哪個類別
應用領域
- 豆瓣九點
- 評論信息
這種很容易和分類搞混,它不是預測算法,是由機器自動分類啊。某個東西屬于哪個類別。
因為文本信息很復雜,維度太多了,人工分類很困難,機器聚類有一個比較明確的概念。
關聯
找出潛在的相關性
應用領域
- 啤酒與尿布(雖然是假的)
很出名的啤酒與尿布的故事,因為它是入門的數據模型,可以挖掘潛在的相關性,理論上挖掘出來可靠性多少等。電商里面用在推薦和搭配上
特征化
繪圖或者報表
應用領域
- 廣告投放
打標簽,在業務上分組。在電商業務上多用于廣告的投放。
評價和批判模型
- 準確率
- 召回率
- 是否比隨機預測或者猜測更好
- 是否現實意義
模型好不好,別亂猜要好。比如生男女的幾率,通過一系列的模型得出的結果可能比不上你的猜測,因為你的猜測有百分之五十的幾率,已經很大了。
不斷的調整參數和新模型,花了一個月時間,準確率可能高了百分之一,也可能準確率講下了。
具體怎么算,有類似Apache提供了Mahout等工具來算這些東西
展現結果
展示和編制分析報告是必不可少的
- 體現你的目標,一定要有目標,我在這里面根據我的預測應該會出現什么樣的結果來解釋我的模型。
- 展示模型輸出的結果,模型的解讀,通過一些可視化的工具來很明顯的表現出模型的好處。
- 置信度,比如:我們預測某個商品下個星期大賣,有百分之七十的可能性。然后讓對方來評估風險,在進行生產等操作。很重要。
部署模型
試運行和不斷調整
評價模型 不一定要新的數據, 拿歷史數據來評價,訓練級和測試級,在模型建立的時期,來判斷數據模型的好壞。不能等上線之后。
總結
這一節課,我們了解了數據科學是什么,然后怎么制定分析目標,同時解說了幾種模型和數據編制分析報告的重要性,還有一些部署模型的注意點。同時對數據科學與時下熱門的機器學習和人工智能的關系有了一些了解。并了解了數據科學在實際業務上的一些實際操作。這一章節很重要,雖然信息量和陌生感可能大了一些,但是讓我們體會到了我們數據科學之美。
下節課預告
- 數據探索和管理
- 數據基本統計和基本可視化