課程Wiki:Introduction
-
監督學習(Supervised Learning)
在監督學習中,給定一組數據,我們知道正確的輸出結果應該是什么樣子,并且知道在輸入和輸出之間有著一個特定的關系。這么說可能理解起來不是很清晰,沒關系,后面有具體的例子。
-
監督學習的分類
監督學習可分為“回歸”和“分類”問題。
在回歸問題中,我們會預測一個連續值。也就是說我們試圖將輸入變量和輸出用一個連續函數對應起來;而在分類問題中,我們會預測一個離散值,我們試圖將輸入變量與離散的類別對應起來。
下面舉兩個例子,就會非常清楚這幾個概念了。
-
監督學習舉例
-
回歸
通過房地產市場的數據,預測一個給定面積的房屋的價格就是一個回歸問題。這里我們可以把價格看成是面積的函數,它是一個連續的輸出值。 但是,當把上面的問題改為“預測一個給定面積的房屋的價格是否比一個特定的價格高或者低”的時候,這就變成了一個分類問題, 因為此時的輸出是‘高’或者‘低’兩個離散的值。
-
分類
給定醫學數據,通過腫瘤的大小來預測該腫瘤是惡性瘤還是良性瘤(課程中給的是乳腺癌的例子),這就是一個分類問題,它的輸出是0或者1兩個離散的值。(0代表良性,1代表惡性)。
分類問題的輸出可以多于兩個,比如在該例子中可以有{0,1,2,3}四種輸出,分別對應{良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。
下圖中上下兩個圖只是兩種畫法。第一個是有兩個軸,Y軸表示是否是惡性瘤,X軸表示瘤的大小; 第二個是只用一個軸,但是用了不同的標記,用O表示良性瘤,X表示惡性瘤。
在這個例子中特征只有一個,那就是瘤的大小。 有時候也有兩個或者多個特征, 例如下圖, 有“年齡”和“腫瘤大小”兩個特征。(還可以有其他許多特征,如下圖右側所示)
-
無監督學習
在無監督學習中,我們基本上不知道結果會是什么樣子,但我們可以通過聚類的方式從數據中提取一個特殊的結構。在無監督學習中給定的數據是和監督學習中給定的數據是不一樣的。在無監督學習中給定的數據沒有任何標簽或者說只有同一種標簽。如下圖所示:
如下圖所示,在無監督學習中,我們只是給定了一組數據,我們的目標是發現這組數據中的特殊結構。例如我們使用無監督學習算法會將這組數據分成兩個不同的簇,,這樣的算法就叫聚類算法。
-
無監督學習舉例
-
新聞分類
第一個例子舉的是Google News的例子。Google News搜集網上的新聞,并且根據新聞的主題將新聞分成許多簇, 然后將在同一個簇的新聞放在一起。如圖中紅圈部分都是關于BP Oil Well各種新聞的鏈接,當打開各個新聞鏈接的時候,展現的都是關于BP Oil Well的新聞。
-
根據給定基因將人群分類
如圖是DNA數據,對于一組不同的人我們測量他們DNA中對于一個特定基因的表達程度。然后根據測量結果可以用聚類算法將他們分成不同的類型。這就是一種無監督學習, 因為我們只是給定了一些數據,而并不知道哪些是第一種類型的人,哪些是第二種類型的人等等。
-
雞尾酒派對效應
詳見課程: [Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)
-
其他
這里又舉了其他幾個例子,有組織計算機集群,社交網絡分析,市場劃分,天文數據分析等。具體可以看一下視頻:[Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)