簡介 K均值聚類,也叫做K-Means Clustering,是一種著名的用于分類問題的無監督機器學習聚類算法。聚類是針對給定的樣本, 依靠它們...
簡介 集成學習,顧名思義就是將多種學習器或算法結合在一起,共同做出決策。這符合人類集思廣益的做法,在業界也是應用最為廣泛的方法之一。注意,集成學...
簡介 大概是今年6月份參加微信大數據挑戰賽的時候,我才開始認識到特征選擇也是機器學習中非常重要的一環。在諸如CTR等比賽中,原始特征往往是不足以...
簡介 決策樹模型是最常見的機器學習方法之一,也是入門機器學習必須掌握的知識。決策樹模型呈現樹形結構,在分類問題中,表示基于特征對實例進行分類的過...
簡介 特征離散化指的是將連續特征劃分離散的過程:將原始定量特征的一個區間一一映射到單一的值。離散化過程也被表述成分箱(Binning)的過程。特...
簡介 本文主要說明特征工程中關于序數特征和類別特征的常用處理方法。主要包含LabelEncoder、One-Hot編碼、DummyCoding、...
簡介 樸素貝葉斯(naive Bayes)算法是基于貝葉斯定理與特征條件獨立假設的分類方法。對于給定的訓練數據集,首先基于特征條件獨立假設學習輸...
簡介 在介紹比較復雜的數據類型比如圖像和文本數據類似之前,我們首先從最簡單的數據類似開始,即:數值類型。我們收集到的數據中,數值類型數據占據了大...
前言 上個月參加了微信大數據挑戰賽,由于是第一次參加類似的比賽,并沒有什么經驗,最終也沒有進復賽。不過在這期間還是學到了很多知識,尤其是特征處理...