阿里機器學習面試的一些題目,
1.說一下KNN的過程(剛開始的時候和k-means搞混了。。。)
KNN是k nearest neighbor 的簡稱,即k最鄰近,就是找k個最近的實例投票決定新實例的類標。KNN是一種基于實例的學習算法,它不同于貝葉斯、決策樹等算法,KNN不需要訓練,當有新的實例出現時,直接在訓練數據集中找k個最近的實例,把這個新的實例分配給這k個訓練實例中實例數最多類。KNN也稱為懶惰學習,它不需要訓練過程,在類標邊界比較整齊的情況下分類的準確率很高。KNN算法需要人為決定K的取值,即找幾個最近的實例,k值不同,分類結果的結果也會不同。
2. ID3 C4.5 CART根據什么選擇特征
ID3根據信息增益選擇特征。C4.5根據信息增益率。CART根據基尼指數
參考鏈接:決策樹(ID3、C4.5、CART)
3. 樸素貝葉斯的假設是什么?
所有樸素貝葉斯分類器都假定樣本每個特征與其他特征都不相關。
4. 如果某個特征在訓練集出現,測試集沒出現沒出現,概率計算出來是0,怎么解決?
某特征在訓練集中未出現,避免概率計算為0,引入laplace平滑方法
5. SVM軟間隔目標函數,及對偶函數的形式
當數據近似線性可分時,通過軟間隔最大化學習一個線性分類器,即線性支持向量機;當數據線性不可分時,通過核技巧及軟間隔最大化學習非線性支持向量機。
目標函數變為:
求min
其中C稱為懲罰參數,且C>0。在線性支持向量機中加入了懲罰項。
利用拉格朗日函數的對偶性,將問題變成一個極大極小優化問題:
了解更多:SVM
6. 神經網絡的誤差傳播的原理
BP網絡拓撲結構
7.梯度提升樹