引言
在之前介紹的分類問題中,所涉及的分類的模型都是線性的,在非線性變換這一節(jié)中,我們將模型延伸到非線性的情況下來進(jìn)行數(shù)據(jù)的分類。
二次假設(shè)(Quadratic Hypotheses)

我們看到上面的例子,在左圖中,圓圈和紅叉的數(shù)據(jù)無法用一條直線將其分成兩類,那么這這個例子中,我們其實可以用一個大圓圈將數(shù)據(jù)分類,所以現(xiàn)在我們考慮假設(shè),該假設(shè)hSEP(x)是一個過原點的圓圈,這啟示我們可以用系統(tǒng)化的方法結(jié)合之前我們學(xué)習(xí)的線性分類的方法,來解決更加廣泛的問題。
還是拿上面的這個圓圈的Φ假設(shè)為例,h(x)=sign(0.6· 1 + (-1) ·x1^2 + (-1) ·x22)。我們令w0=0.6,w1=-1,w2=-1;而z0=1,z1=x12,z2=x2^2。通過這種方式我們就可以將之前的h(x)變化成sign(wT * z),這個熟悉的形式就是我們之前學(xué)習(xí)的線性分類的形式,我們唯一做的不同的事情就是將之前的x的空間轉(zhuǎn)換成新的z的空間。我們把x空間的每一個點轉(zhuǎn)換到z空間的每一個點的過程稱作特征轉(zhuǎn)換(Feature Transform)。這里值得一提的是,x空間里用二次假設(shè)可分的情況,可以得到在z空間的 線性可分,但是反過來則不可以,因為在z空間里的直線不見得在x空間里都是正圓形,還有可能是雙曲線之類的二次曲線,所以在z空間使得數(shù)據(jù)線性可分的直線對應(yīng)x空間的特定的曲線。

我們可以考慮一個更加廣泛的二次假設(shè),這個假設(shè)是使得在z空間里讓數(shù)據(jù)線性可分的假設(shè),那其中的轉(zhuǎn)換函數(shù)如下圖定義。

非線性變換(Nonlinear Transform)
我們可以總結(jié)這個非線性轉(zhuǎn)換的步驟,即先通過Φ(x)將x空間的點轉(zhuǎn)換成z空間的點,而在z空間上得到一個線性的假設(shè),再恢復(fù)到原來的x空間中得到一個二次的假設(shè)(這個反運算的過程不一定存在)。

其實這個特征轉(zhuǎn)換是非常重要的,比如在手寫數(shù)字分類的案例中,我們將原始的像素的特征數(shù)據(jù)轉(zhuǎn)換到更加具體的、具有物理意義的特征上去,進(jìn)而進(jìn)行分類的求解。這個例子其實就是在新的特征空間中做線性分類,而對于原始的像素空間里其實是一個非線性的假設(shè)。

非線性變換的代價(Price of Nonlinear Transform)
計算/存儲的代價(Computation/Storage Price)
現(xiàn)在我們考慮一個很一般化(general)的非線性變換,將剛才的二次變成Q次的多項式轉(zhuǎn)換。

我們用d來表示在z空間的維度,我們需要得到d維的不同的組合方法,復(fù)雜度是O(Q^d)。
這個數(shù)字代表我們需要這樣的計算復(fù)雜度來計算Φ(x)變換、計算參數(shù)w(因為一些訓(xùn)練算法的時間復(fù)雜度和數(shù)據(jù)的維度是有關(guān)的),還有存儲w的話也需要付出代價。

模型復(fù)雜度(Model Complexity Price)
我們知道這個z空間的模型的參數(shù)是1+d個,這個相當(dāng)于是z空間的vc維,所以當(dāng)Q變大的時候,vc維也變大了。

泛化問題(Generalization Issue)
我們再回到機器學(xué)習(xí)的一個基本都是平衡折中問題上,如果d(Q)大的時候,我們可以讓Ein很小,但是這會導(dǎo)致Ein和Eout差別很大;當(dāng)d(Q)小的時候,可以使得Ein和Eout差別小,但是又不能保證Ein很小。

結(jié)構(gòu)化的假設(shè)集合(Structured Hypothesis Sets)
現(xiàn)在我們把多項式的變換做一個遞歸式的定義,先定義0次的變換,再定義1次的變換,其中包括之前的0次變換和所有的一次式,以此類推,Q次的變換包含之前的Q-1次的變換和所有的Q次式。

上面的定義中,因為每個變換都包含了前面的變換,即前面的變換是后面變換的一個特例。從假設(shè)集合的角度,復(fù)雜的變換對應(yīng)的假設(shè)集合是包含相對簡單的變換對應(yīng)的假設(shè)集合。

有了之前復(fù)雜度不同的假設(shè)集合的包含關(guān)系,可以得到以下的關(guān)系,即vc維隨著假設(shè)集合的數(shù)量越累越多而變得越來越大,而Ein隨著這些假設(shè)集合中的選擇越來越多而呈下降的趨勢。

這個關(guān)系如下圖所示,這告訴我們一個高維度的變換因為付出了很大的模型復(fù)雜度,所以會使得Eout和Ein偏離較遠(yuǎn)。那么,在未來的模型選擇中,可以首先選擇線性的模型,因為線性模型簡單、有效、安全并且工作效果好。

轉(zhuǎn)載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.lxweimin.com/users/2bd9b48f6ea8/latest_articles)