-- 原創,除非授權,不得轉載 2017.10.26 --
上一篇文章介紹了熱門的概念之后,這篇文章,講機器學習里的基本術語。
首先,我們要知道,機器學習,是輸入大量的數據,利用算法,得到結果的過程。這些概念在機器學習里都有專業名詞,知道了這些術語,才開啟了機器學習的大門。
問:PM為什么要學這些?
答:知道了這些術語,你才能和程序猿哥哥們在同一頻道上正常溝通。
術語
1. 關于數據的概念
1.【樣本/示例】:一條數據是關于一個事件或對象的描述。在坐標系里表示樣本時,也稱為【特征向量】。
2.【數據集】:多條數據(樣本)的集合。
- 【屬性】:表示對象在某方面的表現或性質。如,顏色、聲音。
- 【屬性值】:屬性上的取值。如,顏色值:紅色。聲音:清脆。
- 【屬性空間】:屬性張成的空間。如,顏色,聲音,大小,作為三個坐標軸,用于描述西瓜??,它們在坐標系里張成的空間叫屬性空間,也稱為【樣本空間】【輸入空間】。
4.【維數】:屬性值的個數,稱為維數。比如,顏色、聲音、大小,構成了3維樣本空間。
2.關于學習過程的概念
0.【模型】:泛指從數據中學得的結果。
1.【訓練/學習】:從數據中學得模型的過程。
2.【訓練數據】:訓練過程中使用的數據。
3.【訓練樣本】:訓練數據中的每個樣本。
4.【訓練集】 :訓練樣本組成的集合。
1.【假設】:學得模型對應了關于數據的某種潛在規律,稱為假設。
2.【真相/真實】:這種潛在規律自身,稱為真相。(只有上帝才知道真相,學習過程是為了逼近真相)
3.【學習器】:給定了參數、數據的學習算法。(實例化了一個模型)
3.關于結果的概念
0.【預測】:人類自己預先想到可能的結果。如,預測此模型能判別西瓜??的好壞。
1.【標記】:訓練樣本的結果。如,顏色:紅色,聲音:清脆,大小:大,訓練結果:好瓜。“好瓜”稱為標記。
2.【樣例】:擁有了標記信息的樣本,稱為樣例。
3.【標記空間】:所有標記的集合。
1.【泛化】:學得模型適用于新樣本的能力。
2.【測試】:學得模型后,用其對新樣本進行預測的過程。比如,判斷一條新數據是不是“好瓜”。
3.【測試樣本】:被測試的樣本。
至此,我們用新的術語來描述一下,機器學習的過程。
我們用【多維】的數據【樣本】進行【訓練】,得到一些有【標記】的【訓練樣本】,以及找到了訓練樣本之間的規律【假設】,至此【學習器】初步完成。
為了檢驗學習器對新樣本的【泛化】能力,是否和我們的【預測】差不多,我們用【測試樣本】進行【測試】。
4. 關于學習任務的術語
【訓練數據】可以使用有標記的樣本,和無標記的樣本。
于是學習任務可劃分為兩大類:【監督學習】和【無監督學習】。其中,常用的任務有【分類】【回歸】【聚類】。
1.【監督學習】:訓練數據【有】標記信息。
-
a.【分類】:對指定的模式進行識別,預測值是離散的。如,識別西瓜是“好瓜”或“壞瓜”。屬于【監督學習】
(離散在坐標軸上就是單個的點,如0,1,2。)
(連續在坐標軸上就是一條線,如0-2上所有的點連線。)- 分類又分【二分類】和【多分類】。
- 【二分類】:對兩個類別的分類,兩個類分別叫【正類】【反類】。如:好瓜(正類)、壞瓜(反類)。
- 【多分類】:兩個以上類別的分類。
b.【回歸】:對指定的模式進行識別,預測值是連續的。如,識別西瓜的成熟度,0.81-0.99。屬于【監督學習】
2.【無監督學習】:訓練數據【沒有】標記信息。
5.關于學習偏好的術語
【偏好】:機器學習算法在訓練過程中對某種類型假設的偏好。
這個術語需要單獨解釋一下。我們用書中的例子。
學得的模型可以用上圖表示。
如,1. 色澤任意,根蒂蜷縮,敲聲任意,的瓜,是好瓜。
也可以是,2. 色澤任意,根蒂蜷縮,敲聲清脆,的瓜,是好瓜。
那么問題來了。
一條新數據。色澤青綠,根蒂蜷縮,聲音沉悶,的瓜,測試結果是什么?
用1判別,是好瓜。
用2判別,是壞瓜。
改采用哪個?
這就由學習器本身的【偏好】決定了。如果你的學習器偏好1,那就是好瓜。如果偏好2,結果就是壞瓜。結果唯一。
又問:偏好怎么來的?能避免嗎?
答:偏好由訓練樣本,以及學習算法的學習程度決定。
不能避免。沒有偏好的學習器,時而判別為好瓜,時而判別為壞瓜,沒有使用價值。
又問:有沒有什么一般性原則引導學習器建立“正確”(我想要的)偏好?
答:有。如“奧卡姆剃刀:選擇最簡單的那個”
或者,具體問題具體分析。這就需要PM對于問題的定義了~
總結
所以,天下沒有免費的午餐。所有的算法、數據都需要我們依據各自的問題和實際情況進行有目的的訓練,沒有一勞永逸的學習器。所以才需要PM這個職位。
身為PM,你要知道你的問題是什么,解決手段是什么?你有什么數據,標記過了嗎?預測是什么?技術能實現嗎?模型怎么測試?什么結果就達到你的要求了?
嗯,道阻且長,祝大家都成為合格的AI PM!
-- 原創,除非授權,不得轉載 2017.10.26 --
我的目的是成為一名人工智能相關的產品經理。加油~