面試問(wèn)題總結(jié)

XgBoost?

1. 從哪幾個(gè)方面實(shí)現(xiàn)并行化

答:在特征粒度上實(shí)現(xiàn)并行。迭代開(kāi)始前對(duì)所有候選特征進(jìn)行一次預(yù)排序,以column block的結(jié)構(gòu)(feature value-gradient for each example)存儲(chǔ),節(jié)點(diǎn)分裂式可以直接用索引得到梯度信息。

2. 如何確定樹(shù)的顆數(shù),以及單顆樹(shù)的深度

答:xgboost有一個(gè)非常有用的cv函數(shù)可以用于交叉驗(yàn)證并能返回最終的最優(yōu)樹(shù)的數(shù)目

單顆樹(shù)深度可以通過(guò)max_depth或min_child_weight控制

4. 為什么不需要做歸一化處理,什么樣的模型需要?dú)w一化處理

答:XgBoost的基分類器是CART樹(shù),樹(shù)模型是通過(guò)特征值排序后來(lái)尋找最佳分割點(diǎn),而歸一化只起到縮放作用,不影響排序結(jié)果。

一般來(lái)說(shuō),模型求解過(guò)程需要用到梯度下降算法的,輸入都要?dú)w一化,當(dāng)不同維度的特征量綱差距較大時(shí),損失函數(shù)的等高線是橢圓,不利于梯度下降尋找最小點(diǎn),迭代次數(shù)較多。

4. 和GBDT的區(qū)別

答:從代價(jià)函數(shù)的展開(kāi)、特征并行化、控制過(guò)擬合、可選基分類器、缺失值處理等角度來(lái)講

5. 單顆樹(shù)有幾種分裂方式,是如何尋找最優(yōu)切割點(diǎn)的,生成每顆樹(shù)的偽代碼

答:兩種,精確方法和近似方法。精確方法會(huì)遍歷在每個(gè)特征上遍歷所有特征值計(jì)算最優(yōu)分割點(diǎn),近似算法使用分位數(shù)的思想,利用每個(gè)樣本的二階導(dǎo)數(shù)和來(lái)確定分位點(diǎn)。

6. XgBoost各個(gè)參數(shù)(alpha、lambda、gamma)的意義

7. 如何確保特征之前沒(méi)有強(qiáng)共線性,Xgboost能消除特征共線性嗎,為什么能。

答:可以簡(jiǎn)單的從模型的穩(wěn)定性角度來(lái)檢驗(yàn)。

模型建好后 ,可以用不同的測(cè)試樣本驗(yàn)證模型效果,如果評(píng)估指標(biāo)有較大波動(dòng),說(shuō)明不穩(wěn)定;或者做cross_validation,如果重要特征重合度不高,也說(shuō)明不穩(wěn)定。

Xgboost一定程度上可以消除共線性,因?yàn)榇鷥r(jià)函數(shù)里包含了類似Ridge Regression的二階正則項(xiàng),約束了葉節(jié)點(diǎn)權(quán)重值大小,保證權(quán)重方差不會(huì)過(guò)大,并且懲罰稀疏越高,共線性的影響也越小。

LSTM

1. 假設(shè)樣本輸入維度為M,隱藏層有H個(gè)cell,LSTM有多少個(gè)參數(shù)

????LSTM在時(shí)間維度上學(xué)習(xí)的參數(shù)是什么

? ??分別寫出輸入門、輸出門、遺忘門、細(xì)胞狀態(tài)的計(jì)算公式

答:顯式的講,學(xué)習(xí)的是三個(gè)門(sigmoid)流入、流出信息的比例,其實(shí)根據(jù)各個(gè)門及cell_state的計(jì)算公式:

i_t=\sigma (W_i[h_{t-1},x_t]+b_i)

o_t=\sigma (W_o[h_{t-1},x_t]+b_o)

f_t=\sigma (W_f[h_{t-1},x_t]+b_f)

\tilde{C}_t=tanh(W_c[h_{t-1},x_t]+b_c)

C_t則是由i_t\tilde{C}_t 共同決定的:C_t=i_t \odot \tilde{C}_t+f_t\odot C_{t-1}

h_t=o_t\odot tanh(C_t)

學(xué)習(xí)的是四個(gè)門控單元中的參數(shù)矩陣,因此每個(gè)細(xì)胞單元中會(huì)有4*(||W||+||b||)

3. LSTM相對(duì)于RNN有哪些改進(jìn),是怎么改進(jìn)的

答:從梯度消失和梯度爆炸的角度解釋。

5 LSTM的輸入形式是什么樣的

[n_batches, n_steps, n_input]?

神經(jīng)網(wǎng)絡(luò)

1. batch normalization的作用

? ? 每個(gè)batch的的數(shù)據(jù)訓(xùn)練完畢后,參數(shù)就會(huì)更新一次,導(dǎo)致每個(gè)batch數(shù)據(jù)分布也隨之改變,

這樣每次迭代網(wǎng)絡(luò)擬合的都是不同分布的數(shù)據(jù)

? ? 針對(duì)每一batch的樣本,在網(wǎng)絡(luò)的每一層輸入之前增加歸一化操作,將所有批數(shù)據(jù)強(qiáng)制統(tǒng)一在同一分布下,從而增加了模型的泛化能力(不受數(shù)據(jù)分布限制)。但歸一化后的數(shù)據(jù)整體處于激活函數(shù)sigmoid的非飽和區(qū)域,相當(dāng)于線性變換,破壞了之前學(xué)習(xí)到的特征分布,因此又引入了兩個(gè)可學(xué)習(xí)參數(shù)\gamma,\beta分別表示輸入數(shù)據(jù)的偏差和方差,y^k=\gamma^k\hat{x}^k+\beta^k ,用于恢復(fù)原來(lái)的數(shù)據(jù)分布。

2. dropout為什么能解決過(guò)擬合問(wèn)題

? ? dropout作用于每份小批量數(shù)據(jù)上,每次迭代都已一定的概率p隨機(jī)丟棄一部分神經(jīng)元,相當(dāng)于每次迭代都在訓(xùn)練不同的網(wǎng)絡(luò)。drop可以看成輕量級(jí)bagging集成近似,能夠?qū)崿F(xiàn)指數(shù)級(jí)數(shù)量神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。

????對(duì)于N個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)都有兩種可能(丟棄或加入),由組合的思想,加入了dropout的網(wǎng)絡(luò)可以看成是2^N個(gè)子網(wǎng)絡(luò)的集成。

3. 梯度消失和梯度爆炸的原因

? ? 梯度消失的原因:

? ? 激活函數(shù)選擇sigmoid或tanh時(shí),由于兩者的函數(shù)域分別在[0,1]和[-1,1]之間

? ? 根據(jù)反向傳播推導(dǎo)公式\delta ^l=\delta^{l+1} \cdot \frac {\partial z^{l+1}}{\partial z^l},以及 \frac {\partial z^{l+1}}{\partial z^l}=\sigma^{(1)}(z^l) \cdot w^l

? ? 可知,當(dāng)神經(jīng)網(wǎng)絡(luò)過(guò)深時(shí),? ??\delta^l會(huì)趨近于0

? ? 改進(jìn)方法是引入ReLU系激活函數(shù)。

? ? 梯度爆炸的原因:

? ? ?同樣的道理,但不是非常難解的問(wèn)題 ,只需要梯度裁剪或后優(yōu)化算法即可。

4.? ? ? ? ? ? ?

Random Forest

1. RF如何評(píng)估重要特征

Decrease GINI和Decrease accuracy?

后者詳細(xì)方法:

對(duì)于隨機(jī)森林中的一顆決策樹(shù),其訓(xùn)練數(shù)據(jù)集是使用Bagging方法得到的,即套袋法,還有大約1/3的袋外數(shù)據(jù)我們可以用它進(jìn)行特征重要性的度量,假設(shè)針對(duì)某個(gè)特征X,我們利用套袋法建立了一顆決策樹(shù)T,然后用T對(duì)袋外數(shù)據(jù)TOOB進(jìn)行分類檢測(cè),得到其正確分類的個(gè)數(shù)XT,然后對(duì)袋外數(shù)據(jù)的特征X進(jìn)行“隨機(jī)擾亂”,對(duì)特征X的取值賦予隨機(jī)取的新數(shù)值,這時(shí)再用T對(duì)袋外數(shù)據(jù)TOOB'進(jìn)行分類檢測(cè),得到正確分類數(shù)XT',這時(shí)對(duì)于T來(lái)說(shuō),特征X的重要性D=|XT' - XT|,我們對(duì)隨機(jī)森林中共N顆決策樹(shù)做相同操作,可以得到N個(gè)特征X的重要性,取其均值作為X的重要性度量,即D(X) = (D1+D2+......+DN)/N,其中Di =?|XT'i - XTi|(i=1,2,3,....,N)。

2.?

特征工程

1. 特征選擇的目的:

當(dāng)樣本和特征的比例小于一定閾值時(shí),需要減少特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合;另外就是加強(qiáng)對(duì)特征和特征值的理解

2. 特征選擇的方法:

Filter:從卡方檢驗(yàn)(離散變量)、互信息、相關(guān)性(連續(xù)變量)、熵、方差等角度去選擇,一般都是在特征值和Label之間計(jì)算。

Wrapper:通過(guò)評(píng)價(jià)指標(biāo)(AUC等)的來(lái)決定是否加入一個(gè)變量子集,不推薦,工程量大

Embedding:利用樹(shù)模型或L1正則、LR權(quán)重向量選擇重要特征

除了以上三種方法,還可以從樣本子集(訓(xùn)練集和測(cè)試集)穩(wěn)定性等角度考慮。

3. 數(shù)據(jù)預(yù)處理從哪幾個(gè)方面進(jìn)行

? ? ① 缺失值填充

? ? ? ? 首先,如果缺失值太多的話,傾向于直接去掉該特征。

? ? ? ? 對(duì)于連續(xù)值:可以用均值、中位數(shù)、最大最小值等,對(duì)于離散值:一般用眾數(shù)

? ? ② 歸一化、標(biāo)準(zhǔn)化(參數(shù)優(yōu)化過(guò)程使用隨機(jī)梯度下降方法的模型)

? ? ③ 二值化、連續(xù)特征離散化(對(duì)于線性回歸、LR、決策樹(shù)這種模型來(lái)講)

?4.?特征比數(shù)據(jù)量還大時(shí),選擇什么樣的分類器?

? ? 線性分類器,特征維度高意味著樣本在特征空間中分布比較稀疏,容易找到線性決策邊界?

5.?給你一個(gè)有1000列和1百萬(wàn)行的訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是基于分類問(wèn)題的。

? ? 分別從樣本、特征、模型復(fù)雜度的角度去考慮。盡量選擇線性模型。?

建模相關(guān)

1. AUC的物理意義

AUC反應(yīng)的是分類器對(duì)樣本的排序能力。根據(jù)這個(gè)解釋,如果我們完全隨機(jī)的對(duì)樣本分類,那么AUC應(yīng)該接近0.5。另外值得注意的是,AUC對(duì)樣本類別是否均衡并不敏感,這也是不均衡樣本通常用AUC評(píng)價(jià)分類器性能的一個(gè)原因。

2.?你會(huì)在時(shí)間序列數(shù)據(jù)集上使用什么交叉驗(yàn)證技術(shù)?是用k倍或LOOCV?

都不能用,這兩種方法會(huì)破壞時(shí)間趨勢(shì),用過(guò)去幾年的數(shù)據(jù)驗(yàn)證模型顯然是不對(duì)的,可以采用如下所示的5倍正向鏈接策略:

fold 1 : training [1], test [2]

fold 2 : training [1 2], test [3]

fold 3 : training [1 2 3], test [4]

fold 4 : training [1 2 3 4], test [5]

fold 5 : training [1 2 3 4 5], test [6]

3.?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,333評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,491評(píng)論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 176,263評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 62,946評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,708評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 55,186評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 42,409評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,939評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,774評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,976評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,209評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 34,641評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 35,872評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,650評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,958評(píng)論 2 373

推薦閱讀更多精彩內(nèi)容