機器學習是從已知數據中獲得規律,并利用規律對未知數據進行預測的技術。具體分為有監督學習、無監督學習和強化學習。
一、數據集
在建立模型之前可將數據集分為訓練集、測試集和驗證集。訓練集用來訓練模型,驗證集通過調整參數驗證模型的好壞,測試集用來評估模型的泛化能力。
二、誤差分析
誤差是算法實際預測輸出與樣本真實輸出之間的差異。
- 模型在訓練集上的誤差稱為“訓練誤差”
- 模型在總體樣本上的誤差稱為“泛化誤差”
- 模型在測試集上的誤差稱為“測試誤差”
在訓練模型的時候,經常會出現過擬合或欠擬合情況,可通過調整參數和增加損失函數等來解決。
過擬合是指模型能很好地擬合訓練樣本,而無法很好地擬合測試樣本的現象,從而導致泛化性能下降。為防止“過擬合”,可以選擇減少參數、降低模型復雜度、正則化等。
欠擬合是指模型還沒有很好地訓練出數據的一般規律,模型擬合程度不高的現象。為防止“欠擬合”,可以選擇調整參數、增加迭代深度、換用更加復雜的模型等。
交叉驗證
交叉驗證可以增加模型的泛化能力,提升其精準度。
三、有監督學習
3.1 回歸模型
線性回歸
概念:
線性回歸是在樣本屬性和標簽中找到一個線性關系的方法,根據訓練數據找到一個線性模型,使得模型產生的預測值與樣本標 簽的差距最小。
目標函數:
3.2 分類模型
3.2.1邏輯回歸
概念:
邏輯回歸是利用??????????????函數,將線性回歸產生的預測值壓縮到0和1之間。
目標函數:
3.2.2支持向量機
概念:
支持向量機是有監督學習中最具有影響力的方法之一,是基于線性判別函數的一種模型。
目標函數:
3.3.3 決策樹
概念:
決策樹是一種基于樹結構進行決策的機器學習方法。
3.3.4 隨機森林
概念:
隨機森林是用隨機的方式建立起一棵棵決策樹,然后由這些決策樹組成 一個森林,其中每棵決策樹之間沒有關聯,當有一個新的樣本輸入時,就讓每棵樹獨立的做出判斷,按照多數原則決定該樣本的分類結果。
四、無監督學習
4.1 聚類
概念:
聚類用來預測各樣本之間的關聯度,把關聯度大的樣本劃為同一類,關聯度小的樣本劃為不同類。
常見算法:
Kmeans聚類、密度聚類、均值漂移聚類等。
4.2 降維
概念:
降維是把維度較高、計算復雜的數據,轉化為維度低、易處理、且蘊含的信息不丟失或較少丟失的數據。
常見算法:
MDS(MultiDimensional Scaling 多維尺度變換)、ISOMAP(Isometric Mapping 等距特征映射) 、PCA(Principle component analysis 主成分分析)、LDA(Linear Discriminant Analysis 線性判別分析)、SNE(Stochastic Neighbor Embedding)、t-SNE(t-distributed stochastic neighbor embedding)。
五、總結
機器學習方法很多,容易混淆,需要不斷的復習和實踐才能更好的掌握其優缺點和應用場景。聚類方法一般是跟其他算法聯合起來用。