參考文章
- 學習路線
零.算法概念
- 監督學習:需要用已知結果的數據做訓練
- 無監督學習:不需要已知標簽
- 連續型數據和離散型數據
1.算法分類
- 監督學習的用途
分類
- k-鄰近算法
- 樸素貝葉斯算法
- 支持向量機
- 決策樹
回歸
- 線性回歸
- 邏輯回歸
- 局部加權線性回歸
- Ridge回歸
- Lasso 最小回歸系數估計
- 無監督學習的用途
- 聚類和降維
- K-均值
- DBSCAN
- 最大期望算法
- Parzcn窗設計
- 特殊算法
- 推薦算法
- 一些小方法(子算法)
- 梯度下降法:主要運用在線性回歸,邏輯回歸,神經網絡,推薦算法中
- 牛頓法:主要運用在線性回歸
- BP算法:主要運用在神經網絡
- SMO算法:主要運用在SVM中
2.如何選擇合適的算法
必須要考慮下面兩個問題
- 使用算法的目的,想要算法完成何種任務
- 需要分析或收集的數據是什么
基于目的考慮
- 想要預測目標的值,則選擇監督學習算法,然后進一步確認目標變量的類型
- 離散型變量: 選擇分類算法
- 連續型變量: 選擇回歸算法
- 否則選擇無監督學習算法,隨后進一步分析是否需要將數據分離為離散的組
- 不需要: 聚類算法
- 需要: 密度估計算法
基于數據考慮
- 特征值的類型
- 特征值是否缺失
- 數據是否存在異常值
- 特征發生的頻率是否罕見
天下沒有免費的午餐
- 沒有哪個算法能在所有問題中都表現得最優秀,因此我們只能在一定程度上縮小算法的選擇范圍,嘗試不同算法的執行效率,不斷試錯,優化算法。
3.基本算法優缺點
算法 | 優點 | 缺點 | 數據類型 | 優化方法 | 應用領域 |
---|---|---|---|---|---|
K-鄰近算法 | 精度高、對異常值不敏感、無數據輸入假定 | 計算復雜度高、空間復雜度高,占用存儲空間 | 數值型和標稱型 | 文本分類、模式識別、聚類分析,多分類領域 | |
決策樹算法 | 1.能實現對未知數據進行高效分類 2.有較好的可讀性和描述性,利于輔助人工分析 3.分類效率高,一次構建后可反復使用 | 1.難以處理連續的特征 2. 容易發生過擬合(隨機森林可以很大程度上減少過擬合) 3.對于多分類問題,計算量和準確率都不理想 | 數值型和標稱型 | 1、對決策樹進行剪枝 2、使用基于決策樹的combination算法來解決過擬合的問題 | 企業管理實踐,企業投資決策,由于決策樹很好的分析能力,在決策過程應用較多。 |
樸素貝葉斯 | 1.樸素貝葉斯模型發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。 2.對小規模的數據表現很好,能個處理多分類任務,適合增量式訓練; 3.對缺失數據不太敏感,算法也比較簡單,常用于文本分類。 | 1.需要計算先驗概率 2.分類決策存在錯誤率 3.對輸入數據的表達形式很敏感 | 標稱型數據 | 文本分類、欺詐檢測中使用較多 | |
人工神經網絡 | 1、分類準確度高,學習能力極強。 2、對噪聲數據魯棒性和容錯性較強。 3、有聯想能力,能逼近任意非線性關系。 | 1、神經網絡參數較多,權值和閾值 2、黑盒過程,不能觀察中間結果 3、學習過程比較長,有可能陷入局部極小值。 | 應用與計算機視覺,自然語言處理,語音識別等領域并取得很好的效果 |
3.適用框架
Input(x) | Output (y) | Application | 框架 |
---|---|---|---|
Home features | Price | Real Estate | standard NN |
Ad,usr info | click on ad?(0/1) | Online Advertising | standard NN |
Image | Object(1,...,1000)(給照片打標簽 | Photo tagging | CNN |
Audio | Text transcript(輸出文本) | Speech recognition | RNN |
English | Chinese | Machine translation | RNNs |
Image,Radar info | Position of other cars | Autonomous driving | custom Hybrid |