1.1:機器學習方法的類別
-
有監督學習
有監督學習是機器學習中最常見的類型。它本質上是一種函數逼近。我們試圖將數據點映射為一個模糊函數。通過優化,我們希望依據訓練數據擬合出一個與未來數據取得最佳逼近效果的函數。該類方法之所以成為“有監督方法”,是因為它們需要接收一個訓練集或學習集 -
無監督學習
無監督學習只分析數據,而不向某個Y映射。該類方法之所以稱為“無監督方法”,是因為它們并不知道輸出結果為何物,而是需要自己提供。 -
強化學習
強化學習與有監督學習相似,但會對每一步生成一個“回報”。例如,好比一只在迷宮中尋找奶酪的老鼠,它希望找到奶酪,但絕大多數時候它不會得到任何獎勵,除非最終找到奶酪
1.2:機器學習算法矩陣
KNN
有監督學習-基于實例的-一般說來,KNN適合度量基于距離的逼近;易受維數災難的影響-適于求解基于距離的問題樸素貝葉斯
有監督學習-概率的-適用于那些輸入相互獨立的問題-適用于那些各類概率值為正的問題SVM
有監督學習-決策面-適用于兩類分類中具有明確界限的問題-適用于兩類分類問題神經網絡
有監督學習-非線性函數逼近-幾乎沒有約束偏置-適合二元輸入問題(核)嶺回歸
有監督學習-回歸-對所能解決的問題具有很低的約束偏置-適合用于連續變量隱馬爾科夫模型
有監督/無監督-無后效性-適用于那些符合馬爾科夫假設的系統信息-適用于時間序列數據和無記憶的信息聚類
無監督-聚類-無限制-適用于給定某種形式的距離(歐氏距離、馬氏距離或其他距離)時,數據本身具有分組形式過濾
無監督-特征變換-無限制-適用于數據中有大量變量需要過濾的場合
1.3:利用上表可明確如何解決一個給定問題
例如,對于確定某人居住的社區這樣的問題,KNN便是一個很好的選擇,而樸素貝葉斯分類模型則絲毫派不上用場。
但樸素貝葉斯分類模型可以確定情緒或其他類型的概率。
對于尋求兩類數據劃分邊界的問題,支持向量機算法則非常適合,而且不易受維數災難的影響。因此,對于擁有大量特征的文本問題,支持向量機通常都是很好的選擇。
神經網絡可以求解從分類到自動駕駛這樣范圍很廣的問題。
核嶺回歸則是向線性回歸模型中添加了一種簡單的技巧,并且能夠找到曲線的均值。
隱馬爾科夫模型能夠追蹤樂譜,標注詞性,并適用于其它類似于系統的應用。
聚類算法適合于那些不含明確輸出的數據分組問題。這類算法對數據分析非常有幫助,也可用于構建數據庫或高效地保存數據。
過濾方法非常適用于克服維數災難 。為將所提取到的像素轉換為特征,大量使用了該方法。
1.4 更關鍵的思想
學習算法僅僅是一個開始。最重要的是,我們應當認識到,選擇什么方法并不是最關鍵的,要嘗試解決的問題才是最重要的。
這正是我們使用交叉驗證、度量精度、查全率和準確率的原因。對每一個步驟進行檢查和測試,保證了我們至少在接近更優的答案。
- 推薦書籍
- The Art and Science of Algorithms that Make Sense of Data (2012)
-
Information Theory, Inference and Learning Algorithms (2003)
視頻地址 下載地址 豆瓣9.2分 - Machine Learning (1997)
- Artificial Intelligence: A Modern Approach (2009)
- Programming Collective Intelligence Building Smart Web 2.0 Applications (2007) 即 集體智慧編程,豆瓣9.0分
- Reinforcement Learning: An Introduction (1998)
- Geoffrey E. Hinton 的講義
- Andrew Ng 的講義