譯者按: 吳恩達(dá)和邁克爾喬丹的經(jīng)典合作之一,是當(dāng)年吳恩達(dá)在喬丹門下讀博時發(fā)表的,分類問題是機(jī)器學(xué)習(xí)最典型的問題,而樸素貝葉斯和邏輯回歸又是最基礎(chǔ)最常用的分類算法,兩位大神對此進(jìn)行了深入精到的分析,對機(jī)器學(xué)習(xí)和AI的愛好者來說不可錯過
作者:?
Andrew Y. Ng(吳恩達(dá))? ?, ??Michael I. Jordan(邁克爾一喬丹)
?計算機(jī)科學(xué)和統(tǒng)計系
加州大學(xué)伯克利分校
摘要
我們比較判別式和生成式學(xué)習(xí),以logistic回歸和樸素貝葉斯為代表。我們表明,與廣泛持有的觀點(diǎn)(判別式分類器幾乎總是被優(yōu)先考慮的)相反,通常會有兩種不同的性能體系,即訓(xùn)練集大小增加,其中每個算法效果更好。這源于觀察,在反復(fù)實(shí)驗(yàn)中證實(shí),盡管判別式學(xué)習(xí)具有較低的漸近誤差,但生成式分類器也可以更快地接近其(較高)漸近性誤差。
一、簡介
生成分類器學(xué)習(xí)輸入x和標(biāo)簽y的聯(lián)合概率p(x,y)的模型,并通過使用貝葉斯規(guī)則來計算p(ylx),然后選擇最可能的標(biāo)簽y來進(jìn)行預(yù)測。 判別分類器直接對后驗(yàn)p(ylx)建模,或者從輸入x學(xué)習(xí)一個直接映射到類標(biāo)簽。 使用判別式而不是生成性分類器有幾個令人信服的原因,其中一個由Vapnik簡潔地闡述[6],即“應(yīng)該直接解決[分類]問題,并且不會解決更普遍的問題作為中間步驟 [例如 作為建模p(xly)]。“ 事實(shí)上,拋開計算問題和處理缺失數(shù)據(jù)等問題,目前的共識似乎是,判別式分類幾乎總是被優(yōu)先于生成性分類。
另一個流行的民間智慧是需要的例子數(shù)量,擬合一個模型通常在模型的自由參數(shù)數(shù)量上大致是線性的。這對于VC的“眾多”模型的觀察具有理論基礎(chǔ),維數(shù)大致是線性的或者至多是參數(shù)數(shù)量中的一些低階多項(xiàng)式(參見例如[1,3]),并且已知在VC維中判別性設(shè)置中的樣本復(fù)雜度是線性的[6]。
在本文中,我們從經(jīng)驗(yàn)和理論上研究這些信念的真實(shí)程度。 概率模型p(x,y)的一個參數(shù)族可以適合于優(yōu)化輸入和標(biāo)簽的聯(lián)合似然,或者適合于優(yōu)化條件似然p(ylx),或者甚至適合于最小化0-1訓(xùn)練 通過對p(ylx)進(jìn)行閾值處理得到的誤差進(jìn)行預(yù)測。 給定根據(jù)第一準(zhǔn)則的分類器hGen擬合,并且根據(jù)第二或第三準(zhǔn)則(使用相同的參數(shù)族模型)擬合模型hDis,我們稱hGen和hD為生成 - 區(qū)分對。 例如,如果p(xly)是高斯的且p(y)是多項(xiàng)式的,則相應(yīng)的生成判別對是正態(tài)判別分析和邏輯回歸。 類似地,對于離散輸入的情況,眾所周知,樸素貝葉斯分類器和邏輯回歸形成了一個生成 - 區(qū)分對[4,5]。
為了比較生成性和判別式學(xué)習(xí),似乎很自然地關(guān)注這樣的對。在本文中,我們考慮樸素貝葉斯模型(用于離散和連續(xù)輸入)及其區(qū)分模擬,邏輯回歸/線性分類,并且顯示:(a)生成模型的確具有更高的漸近誤差訓(xùn)練樣例變得很大),但是(b)生成模型也可能比判別模型更快地逼近其漸近誤差 - 可能有許多訓(xùn)練樣例,它們的數(shù)量只是對數(shù)而不是線性的參數(shù)。這表明,并且我們的實(shí)證結(jié)果強(qiáng)烈支持 - 隨著訓(xùn)練樣本數(shù)量的增加,可能會有兩種截然不同的表現(xiàn)方式,第一種方式是生成模型已經(jīng)接近其漸近誤差,因此表現(xiàn)更好,第二種情況是判別模型接近其較低的漸近誤差并做得更好。
二、預(yù)演
我們考慮一個二元分類任務(wù),并從離散數(shù)據(jù)的情況開始。假設(shè)X = {O,l} n是n維輸入空間,我們假設(shè)二進(jìn)制
簡單的輸入(泛化沒有困難)。 讓輸出標(biāo)簽為Y = {T,F(xiàn)},并且在X X Y上存在一個聯(lián)合分布V. 繪制了訓(xùn)練集S = {x(i),y(i)}?1。 生成貝葉斯分類器使用S來計算概率的估計值p(xiIY)和p(y)p(xi IY)和p(y),如下所示:
(對于p(y = b),也是類似的),其中#s { - }計算出現(xiàn)的次數(shù)事件在訓(xùn)練集S中。這里,設(shè)定l =°對應(yīng)于采用經(jīng)驗(yàn)估計概率,并且l更傳統(tǒng)地被設(shè)置為正值,例如1,這對應(yīng)于使用概率的拉普拉斯平滑。 為了對測試示例x進(jìn)行分類,當(dāng)且僅當(dāng)以下數(shù)量為正數(shù)時,樸素貝葉斯分類器hGen:X r- + Y預(yù)測hGen(x)= T:
在連續(xù)輸入的情況下,除了我們現(xiàn)在假設(shè)X = [O,l] n并且設(shè)p(xilY = b)被參數(shù)化為具有參數(shù){ti ly = b的單變量高斯分布和 如果注意到j(luò)1,而不是if,則取決于y)。 參數(shù)通過最大可能性進(jìn)行擬合,例如{ti ly = b是訓(xùn)練集中標(biāo)簽y = b的所有示例的第i個坐標(biāo)的經(jīng)驗(yàn)平均值。 請注意,此方法也等同于假定對角線協(xié)方差矩陣的正態(tài)判別分析。 在下面的續(xù)集中,我們還讓J.tree = b = E [XiIY = b]和a; = Ey [Var(xi ly)]是“真”的均值和方差(不管數(shù)據(jù)是否為高斯分布)。
在離散和連續(xù)的情況下,眾所周知,樸素貝葉斯的判別式是邏輯回歸。 該模型具有參數(shù)[,8,OJ,并且假定p(y = Tlx;,8,O)= 1 /(1 + exp( - ,8Tx-0))。 給定一個測試?yán)齲,當(dāng)且僅當(dāng)線性判別函數(shù)
是積極的。 作為一個判別模型,參數(shù)[(3,()]可以適合于最大化訓(xùn)練集上的條件或全部條件,或者最小化 其中1 { - }是指示器函數(shù)(I {True} = 1,I {False} = 0)0-1訓(xùn)練誤差L?= ll {hois(x(i))1-y(i)}。 在錯誤度量為0-1分類錯誤的情況下,我們認(rèn)為后者可以更真實(shí)地用于判別式學(xué)習(xí)的“精神”,盡管前者也經(jīng)常被用作后者的計算效率近似值。 我們將在很大程度上忽略這兩種版本的歧視性學(xué)習(xí)之間的差異,并且在濫用術(shù)語的情況下,我們會松散地使用術(shù)語“邏輯回歸”來指代,盡管我們的正式分析將集中在后一種方法上。
最后,讓1i是所有線性分類器的族(從X到Y(jié)的映射); 并給出一個分類器h:X I -t y,將其泛化誤差定義為c(h)= Pr(x,y)?v [h(x)1-y]。
三、分析和算法
當(dāng)D使得兩類遠(yuǎn)離線性分離時,邏輯回歸和樸素貝葉斯都不可能做得好,因?yàn)閮烧叨际蔷€性分類器。 因此,為了獲得非平凡的結(jié)果,將這些算法的性能與它們的漸近誤差進(jìn)行比較是最有趣的(參見不可知論學(xué)習(xí)設(shè)置)。 更確切地說,讓hGen,oo是樸素貝葉斯分類器的人口版本; 即hGen,oo是具有參數(shù)p(xly)= p(xly),p(y)= p(y)的樸素貝葉斯分類器。 同樣,讓hOis是邏輯回歸的人口版本。 接下來的兩個命題是完全簡單的。
命題1讓hGen和hDis是任何生成歧視的分類器,binoo和hdis是它們的漸近/種群版本。 然后lc(hDis,oo):Sc(hGen,oo)。
命題2讓hDis為n維邏輯回歸。 然后高概率c(hois):S c(hois,oo)+ 0(J?log?)
因此,對于c(hOis):S c(hOis,oo)+ EO以高概率保持(這里EO> 0是某個固定常量),只需選擇m = O(n)即可。
命題1表明,漸近地判別式邏輯回歸的誤差小于生成樸素貝葉斯的誤差。 這很容易表明,由于c(hDis)收斂于infhE1-lc(h)(其中1i是所有線性分類器的類別),因此它必須漸近地不比樸素貝葉斯挑選的線性分類器差。 這個命題也為廣泛認(rèn)為判別式分類器比生成式分類器更好的觀點(diǎn)提供了基礎(chǔ)。
命題2是另一個標(biāo)準(zhǔn)結(jié)果,并且是一個直接的應(yīng)用Vapnik一致收斂于邏輯回歸,并使用1i具有VC維n的事實(shí)。 命題的第二部分指出,判別式學(xué)習(xí)的樣本復(fù)雜性 - 即需要接近漸近誤差的例子的數(shù)量 - 至多是n的數(shù)量級。 請注意,最壞情況下的樣本復(fù)雜度也受n階[6]的限制。
因此,判別式學(xué)習(xí)的圖片相當(dāng)清楚:錯誤收斂于最佳線性分類器的收斂,并且收斂在n個例子的順序之后。?
生成式學(xué)習(xí)如何?特別是樸素貝葉斯分類器的情況? 我們從以下引理開始。
引理3
任何101,8>°和任何l 2:°都是固定的。 假設(shè)對于一些固定的Po> 0,我們有Po:s:p(y = T):s:1 - Po。 讓m = 0((1 / Ei)log(n / 8))。 然后概率至少為1 - 8:
1.在離散輸入的情況下,IjJ(XiIY = b)-p(xilY = b)1:s:101和IjJ(y =b) - p(y = b)I:s:101,對于所有i = 1,...,n和bEY。
2.在連續(xù)輸入的情況下,IPi ly = b -f-li ly = b I:s:101,laT-O“TI:s:101,并且IjJ(y = b)-p(y = b) :s:101,所有i = 1,...,n和bEY。
證明(草圖)。考慮離散情況,現(xiàn)在讓l =°。設(shè)101:s:po / 2。通過Chernoff界限,概率至少為1 - 81 = 1 - 2exp(-2Eim),正例的比例將在p(y = T)的101范圍內(nèi),這意味著IjJ(y = b) - p(y = b)1:s:101,我們至少有1m正數(shù)和1m負(fù)數(shù)示例,其中I = Po-101 = 0(1)。所以再次通過Chernoff界限,對于具體的i,b,IjJ(XiIY = b)-p(xilY = b)1> 101的機(jī)會最多為82 = 2exp(-2Ehm)。由于存在2n個這樣的概率,聯(lián)盟限制的錯誤總發(fā)生概率最多為81 + 2n82。用81和8 / s定義代替,我們看到為了保證81 + 2n82:s:8,只要m如前所述即可。最后,平滑(l> 0)對這些概率至多添加一個小的O(l / m)擾動,并使用與上述相同的參數(shù)(比如說101/2)而不是101,并且認(rèn)為這個O / m)擾動至多為101/2(這是因?yàn)閙至少為1 / Ei),再次給出結(jié)果。對于連續(xù)情況的結(jié)果用基于切爾諾夫邊界的論證(以及假設(shè)Xi E [0,1])被類似地證明。
因此,在n個樣本中,只有對數(shù)而不是線性的樣本,生成分類器hGen的參數(shù)均勻接近它們的漸近線
hGen中的值,oo。因此,很容易得出結(jié)論,c(hGen),即錯誤生成的樸素貝葉斯分類器也趨于其漸近值c(hGen,oo)
在這個例子之后,暗示只需要0(log n)個例子來適應(yīng)a樸素貝葉斯模型。我們將很快建立一些簡單的條件
這種直覺確實(shí)是正確的。請注意,這意味著即使樸素貝葉斯收斂于c(hGen,oo)與logistic回歸相比更高的漸近誤差
c:(hDis,oo),它也可能比O(log n)快得多O(n),
訓(xùn)練例子。顯示c(hGen)方法c(hGen,oo)的一種方式是通過顯示參數(shù)'收斂意味著hGen很可能會做出同樣的預(yù)測
hGen,oo。回想一下,hGen通過對判別函數(shù)進(jìn)行閾值處理來進(jìn)行預(yù)測lGen在(2)中定義。設(shè)lGen,oo為相應(yīng)的判別函數(shù)
由hGen使用,oo。在每個例子上,lGen和lGen都落在同一個地方零的邊,hGen和hGen,oo會做出同樣的預(yù)測。而且,只要
lGen,oo(x)的概率相當(dāng)高,遠(yuǎn)離零,那么lGen(x)是一個很小的lGen的擾動oo(x)通常也會與lGen oo(x)在同一邊。
定理4定義G(T)= Pr(x,y)?v [(lGen,oo(x)E [O,Tn] A y = T)V(lG en,oo(X)E [-Tn,O ] AY = F)]。 假設(shè)對于一些固定的Po> 0,我們有Po:s:p(y = T):s:1 - Po,并且Po:s:P(Xi = 11Y = b):s:1 - Po對于所有的i,b離散輸入)或O“T 2:Po(在連續(xù)的情況下)然后以高概率,
證明(草圖)。 c(hGen) - c(hGen,oo)受上述機(jī)會的上界限hGen,oo正確地對隨機(jī)選擇的示例進(jìn)行分類,但hGen將其錯誤分類。
引理3確保hGen的所有參數(shù)在hGen的所有參數(shù)O(j(log n)/ m)內(nèi)的概率很高。這又意味著,lGen中的總和中的n + 1項(xiàng)(如等式2)中的每個項(xiàng)都在lGen,oo中對應(yīng)項(xiàng)的O(j(1ogn)/ m)之內(nèi),因此IlGen(x) -lGen,oo(x)1:SO(nj(1ogn)/ m)。假設(shè)T = O(j(logn)/ m),我們就可以看出,只有當(dāng)y = T且lGen時,hGen,oo才有可能是正確的,而hGen可能是錯誤的(x,y) X)E [0,Tn](因此有可能是lGen,oo(X)::::: 0,lGen(x):S 0),或者如果y = F和lGen,oo(X)E [-Tn,0]。這個概率恰好是G(T),因此上界c(hGen) - c(hGen,oo)。 d
定理中的關(guān)鍵量是G(T),當(dāng)T很小時它必須很小,以使邊界不平凡。注G(T)以上界為界Prx [lGen,oo(x)E [-Tn,Tn]] - lGen,oo(X)(一個隨機(jī)變量,其分布由x“”V引起)接近零的概率。要獲得關(guān)于這些隨機(jī)變量的縮放的直覺,請考慮以下幾點(diǎn):
命題5假設(shè),對于至少一個0(1)分?jǐn)?shù)的特征我(我=1,...,n),對于一些IP(Xi = 11Y = T)-P(Xi = 11Y = F)I :::::'Y 固定'Y> 0(或者在連續(xù)輸入的情況下,IJLi ly = T -JLi ly = FI :::::'Y)。 然后E [lGen,oo(x)ly = T] = O(n)和-E [lGen,oo(x)ly = F] = O(n)。
因此,只要類標(biāo)簽給出有關(guān)0(1)分?jǐn)?shù)的信息特征(或者不太正式,只要大多數(shù)特征與類標(biāo)簽“相關(guān)”),IlGen的期望值oo(X)I將是O(n)。 這個命題很容易通過證明條件(例如)事件y = T,以lGen,oo(x)(如等式(2)中的總和中的每個項(xiàng),但用fi代替fi) 非負(fù)的期望(由KL散度的非負(fù)性),此外0(1)部分的期望值遠(yuǎn)離零。
命題5保證IlGen,oo(x)1有很大的期望,但我們要想綁定G實(shí)際上是稍微強(qiáng)一點(diǎn),那就是隨機(jī)的變量IlGen,oo(x)1進(jìn)一步大/遠(yuǎn)離零,具有高概率。那里有幾種方法可以獲得足夠的條件來確保G很小。一獲得松散界限的方法是通過切比雪夫不等式。對于其余的這個討論,讓我們?yōu)榱撕唵味[含地說明一個測試事件示例x具有標(biāo)簽T.切比雪夫不等式意味著Pr [lGen,oo(x):SE [lGen,oo(X)] - t]:S Var(lGen,oo(x))/ t2。現(xiàn)在,lGen,oo(X)是n個隨機(jī)數(shù)之和變量(忽略涉及先驗(yàn)p(y)的術(shù)語)。如果(仍然以y為條件),這n個隨機(jī)變量是獨(dú)立的(即如果“樸素貝葉斯假設(shè)”假設(shè)xi在條件上獨(dú)立于給定的y,保持),那么它的方差是O(n);即使n個隨機(jī)變量不完全獨(dú)立,方差可能也是如此仍然不會大于0(n)(甚至可能更小,取決于相關(guān)性的跡象),并且至多是O(n2)。所以,如果E [lGen,oo(x)ly = T] = an(as將通過命題5來保證)對于一些> 0,通過設(shè)置t =(a-T)n,Chebyshev不等式給出了Pr [lGen,oo(x):S Tn]:S 0(1 /(a-T)2n1 /)一致地界定,那么我們也是
有G(T)= O(T)。無論如何,我們對定理4也有如下推論。
推論6假設(shè)定理4的條件成立,并假設(shè)G(T):S Eo / 2 + 對于滿足F(T) - + 0的函數(shù)F(T)(與n無關(guān))的F(T)為T - + 0,
和一些固定的EO> O.那么對于€(hGen):S c(hGen,oo)+ EO保持高
圖1:來自VCI Machine Learning的數(shù)據(jù)集的15個實(shí)驗(yàn)的結(jié)果庫。 繪圖的泛化誤差與m(平均超過1000個隨機(jī)數(shù)
火車/測試分割)。 虛線是邏輯回歸; 實(shí)線是樸素貝葉斯。
請注意,前面的討論暗示了推論的先決條件確實(shí)存在于樸素貝葉斯(和命題5)的假設(shè)情況下對于任何常數(shù)fa,只要n足夠大以至于fa ::::: exp(-O(o:2n))(對于有界限的Var(lGen,oo(x))情況也是如此,并且限制性更強(qiáng)的fa ::::: O(I /(o:2n17)))。 這也意味著這些(后者也要求T)> 0)是漸近樣本復(fù)雜度為0(log n)的充分條件。
四、實(shí)驗(yàn)
邏輯回歸算法具有較低的漸近誤差,生成的樸素貝葉斯分類器也可以更快地收斂到其(較高)漸近誤差。因此,隨著訓(xùn)練樣本數(shù)量m的增加,人們會期望生成樸素貝葉斯最初做的更好,但對于區(qū)分邏輯回歸最終趕上并很可能超過樸素貝葉斯的性能。為了測試這些預(yù)測,我們對15個數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),其中8個連續(xù)輸入,7個離散輸入,來自VCI機(jī)器學(xué)習(xí)庫2.這些實(shí)驗(yàn)的結(jié)果如圖1所示。我們發(fā)現(xiàn)理論預(yù)測出人意料地好。有一些logistic回歸的表現(xiàn)沒有趕上樸素貝葉斯的情況,但這主要是在特別小的數(shù)據(jù)集中觀察到的,在這些數(shù)據(jù)集中,m估計不能大到足以讓我們觀察到大規(guī)模邏輯回歸的預(yù)期優(yōu)勢m限制。
五、討論
Efron [2]也分析了邏輯回歸和正態(tài)判別分析(for連續(xù)的投入),并得出結(jié)論,前者只是漸近的略微(1/3 - 1/2倍)統(tǒng)計效率較低。這與我們的形成鮮明對比結(jié)果,一個關(guān)鍵的區(qū)別是,而不是假設(shè)P(xly)是高斯的一個對角協(xié)方差矩陣(就像我們所做的那樣),Efron考慮了P(xly)的情況建模為具有完全信任矩陣的高斯。在這種情況下,估計協(xié)方差矩陣是奇異的,如果我們在n個訓(xùn)練樣本中的線性少于,那么正態(tài)判別分析不能比學(xué)習(xí)快得多邏輯回歸在這里。第二個重要的區(qū)別是Efron的考慮只有P(xly)確實(shí)是高斯的特例。這樣的漸近在一般情況下比較不是很有用,因?yàn)槲ㄒ豢赡艿慕Y(jié)論,如果€(hDis,oo)<€(hGen,oo)是邏輯回歸是優(yōu)越的算法。
相反,正如我們以前所看到的那樣,這是非漸近的情況觀察到有趣的“雙機(jī)制”行為。實(shí)用的分類算法通常涉及某種形式的正則化特定的邏輯回歸通常可以在實(shí)踐中通過技術(shù)改進(jìn)如通過L1約束收縮參數(shù),強(qiáng)加一個裕度約束在可分離的情況下,或各種形式的平均。這種正則化技術(shù)可以被看作是改變模特家庭,但是,他們在很大程度上是這樣正交于本文的分析,這是基于特別考察的清晰的生成歧視模型配對案例。通過開發(fā)更清晰了解純生殖和歧視的條件方法最成功,我們應(yīng)該能夠更好地設(shè)計混合分類器享受最廣泛的條件范圍內(nèi)的最佳性能。最后,雖然我們的討論集中在樸素貝葉斯和邏輯回歸,但是直接將分析擴(kuò)展到其他幾種模型,包括生成歧視通過使用固定結(jié)構(gòu),有界貝葉斯生成P(xly)網(wǎng)絡(luò)模型(其中樸素貝葉斯是一個特例)。
致謝
我們感謝Andrew McCallum提供有用的對話。吳恩達(dá)得到了微軟研究院獎學(xué)金支持。 這項(xiàng)工作也得到了英特爾的資助
References
[1] M. Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations. Cambridge
University Press, 1999.
[2] B. Efron. The efficiency of logistic regression compared to Normal Discriminant Analysis.
Journ. of the Amer. Statist. Assoc., 70:892- 898, 1975.
[3] P. Goldberg and M. Jerrum. Bounding the VC dimension of concept classes parameterized
by real numbers. Machine Learning, 18:131-148, 1995.
[4] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley,
New York, 1992.
[5] Y. D. Rubinstein and T. Hastie. Discriminative vs. informative learning. In Proceedings
of the Third International Conference on Knowledge Discovery and Data Mining, pages
49- 53. AAAI Press, 1997.
[6] V. N. Vapnik. Statistical Learning Theory. John Wiley & Sons, 1998.