面試題目總結

阿里機器學習面試的一些題目,

1.說一下KNN的過程(剛開始的時候和k-means搞混了。。。)

KNN是k nearest neighbor 的簡稱,即k最鄰近,就是找k個最近的實例投票決定新實例的類標。KNN是一種基于實例的學習算法,它不同于貝葉斯、決策樹等算法,KNN不需要訓練,當有新的實例出現時,直接在訓練數據集中找k個最近的實例,把這個新的實例分配給這k個訓練實例中實例數最多類。KNN也稱為懶惰學習,它不需要訓練過程,在類標邊界比較整齊的情況下分類的準確率很高。KNN算法需要人為決定K的取值,即找幾個最近的實例,k值不同,分類結果的結果也會不同。

2. ID3 C4.5 CART根據什么選擇特征

ID3根據信息增益選擇特征。C4.5根據信息增益率。CART根據基尼指數

參考鏈接:決策樹(ID3、C4.5、CART)

3. 樸素貝葉斯的假設是什么?

所有樸素貝葉斯分類器都假定樣本每個特征與其他特征都不相關。

4. 如果某個特征在訓練集出現,測試集沒出現沒出現,概率計算出來是0,怎么解決?

某特征在訓練集中未出現,避免概率計算為0,引入laplace平滑方法

5. SVM軟間隔目標函數,及對偶函數的形式

當數據近似線性可分時,通過軟間隔最大化學習一個線性分類器,即線性支持向量機;當數據線性不可分時,通過核技巧及軟間隔最大化學習非線性支持向量機。

目標函數變為:

求min

其中C稱為懲罰參數,且C>0。在線性支持向量機中加入了懲罰項。

利用拉格朗日函數的對偶性,將問題變成一個極大極小優化問題:

了解更多:SVM

6. 神經網絡的誤差傳播的原理

BP網絡拓撲結構
印象中記得老師講。以3層的為例。紫色圈圈的誤差,需要由它所有的輸入負責,即每一個粉紅色的圈圈都對誤差負有責任,每個粉紅色的圈圈的誤差是兩個紫色圈圈分給它的誤差之和。

7.梯度提升樹

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 1.機器學習中特征的理解 def:特征選擇和降維 特征選擇:原有特征選擇出子集,不改變原來的特征空間 降維:將原有...
    CoolWell閱讀 929評論 0 0
  • 一.樸素貝葉斯 1.分類理論 樸素貝葉斯是一種基于貝葉斯定理和特征條件獨立性假設的多分類的機器學習方法,所...
    wlj1107閱讀 3,144評論 0 5
  • 昨晚19:00葉老師第八季《人人必修3堂時間管理課》第一節。 貌似葉老師的線上和線下課都上了不少了,但都沒有好好的...
    NicoleQIu閱讀 81評論 0 0
  • 上午來到學校馬上就要開始學習訓練了,有點小激動!下午的時候,我們開始選擇連委進行開營儀式,我參加了授旗儀式,場面盛...
    MAZAN閱讀 219評論 0 0