新浪金融數(shù)據(jù)分析面經(jīng)

https://zhuanlan.zhihu.com/p/36539125
https://zhuanlan.zhihu.com/p/56175215

9.24 筆試

9.29約面試 推到國慶后 10.16現(xiàn)場一面

自我介紹

實習(xí)最大的收獲是什么?

挖數(shù)據(jù)競賽,具體是怎么做的?

你能講一下變量篩選IV和基于隨機森林的差異么? 隨機森林的重要性有兩種定義,我只回答出了一種。

————————————————————————————————————————
IV叫做信息價值,是基于信息論得到的,是每箱特征的加權(quán)WOE,也可以用相對熵來理解,刻畫的就是這個變量的好壞客戶的分布差異,如果差異越大,對好壞客戶的區(qū)分度就越強,反之則區(qū)分度就比較小。

基于特征重要度的變量篩選方法是目前機器學(xué)習(xí)最熱門的方法之一,其原理主要是通過隨機森林和GBDT等集成模型選取特征的重要度。對于隨機森林,通常可以用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯誤率作為評價指標(biāo)來衡量。

兩種計算方法:

  1. 選擇袋外數(shù)據(jù)計算袋外誤差,隨機對袋外數(shù)據(jù)所有樣本的特征加入隨機干擾,再次計算袋外誤差。當(dāng)改變樣本在該特征的值,若袋外數(shù)據(jù)準(zhǔn)確率大幅度下降,則該特征對于樣本的預(yù)測結(jié)果有很大影響,說明特征的重要度比較高。因此可以那兩個袋外數(shù)據(jù)誤差的均值來刻畫特征的重要度。

  2. 第j個特征在隨機森林所有決策樹中節(jié)點分裂不純度的平均改變量。我的理解就是當(dāng)前節(jié)點可以計算基尼指數(shù),當(dāng)前節(jié)點依據(jù)某個特征分裂為左右節(jié)點后可以得到左節(jié)點的基尼指數(shù),也可以得到左、右節(jié)點的基尼指數(shù),這樣既可計算一個差值,也就是在單個數(shù)中某個特征節(jié)點分裂不純度的改變量,再將每棵樹中的進行平均既可得到平均值,最后進行歸一化得到重要性評分。

————————————————————————————————————————

評分卡模型中,為什么要進行分箱?講一下卡方分箱?分箱后為什么要進行WOE編碼?

—————————————————————————————————————————

為什么要進行分箱?

  1. 特征分箱可以有效處理特征中的異常值和缺失值。
  2. 特征分箱后,數(shù)據(jù)和模型會更穩(wěn)定。
  3. 特征分箱可以簡化邏輯回歸模型,降低模型過擬合的風(fēng)險,提高模型的泛化能力。
  4. 將所有特征統(tǒng)一變?yōu)轭悇e型變量。
  5. 分箱后的變量才可以使用標(biāo)準(zhǔn)的評分卡模式,即對不同的分數(shù)段進行評分。

卡方分箱:
卡方檢驗就是用來刻畫某個變量與因變量是不是有顯著關(guān)系的。
可以用實際次數(shù)與預(yù)期次數(shù)的差的平方除以預(yù)期次數(shù)進行計算。

Chimerge 分箱是目前最流行的分箱方式之一,其基本思想是如果兩個相鄰的區(qū)間具有類似的類分布,則這兩個區(qū)間合并;否則,它們應(yīng)保持分開。Chimerge通常采用卡方值來衡量兩相鄰區(qū)間的類分布情況。

  1. 輸入: 分箱的最大區(qū)間數(shù) n
  2. 初始化: 離散值可以轉(zhuǎn)化為壞客戶比率,根據(jù)要離散的屬性進行排序,進行等頻分箱,若有缺失值,則單獨一箱。
  3. 合并區(qū)間,計算每一對相鄰區(qū)間的卡方值,卡方值越小說明兩箱差異越小。將卡方值最小的一對區(qū)間合并。



    上式刻畫的是 實際數(shù)量和合并后的期望數(shù)量的差異。

分箱后:

  1. 對于壞客戶比例為 0 或 1 的分箱進行合并 (一個分箱內(nèi)不能全為好客戶或者全為壞客戶)。
  2. 對于分箱后某一箱樣本占比超過 95% 的箱子進行刪除。
  3. 檢查缺失分箱的壞客戶比例是否和非缺失分箱相等,如果相等,進行合并。

為什么要進行WOE編碼?

  • WOE編碼的形式與邏輯回歸相對應(yīng)。 都有l(wèi)n(壞/好)
  • 可以提升模型的預(yù)測效果。
  • 將自變量都利用WOE編碼,規(guī)范到同一尺度,都轉(zhuǎn)化為好壞客戶的差異。
  • WOE變量能反應(yīng)自變量取值的貢獻情況。
  • 有利于對變量的每個分箱進行評分。
  • 轉(zhuǎn)化為離散變量后便于分析變量與變量之間的相關(guān)性。
  • 與ONE-HOT編碼相比,可以保證變量的完整性,同時避免稀疏矩陣和維數(shù)災(zāi)難。
  • WOE變量可以為邏輯回歸引入非線性關(guān)系。

—————————————————————————————————————————

xgboost與lightgbm的差異?

—————————————————————————————————————————
我每次都只答出預(yù)排序和直方圖。。 還要反復(fù)看。

1.速度和內(nèi)存上的優(yōu)化:

xgboost用的是預(yù)排序(pre-sorted)的方法, 空間消耗大。這樣的算法需要保存數(shù)據(jù)的特征值,還保存了特征排序的結(jié)果(例如排序后的索引,為了后續(xù)快速的計算分割點),這里需要消耗訓(xùn)練數(shù)據(jù)兩倍的內(nèi)存。 其次,時間上也有較大的開銷,在遍歷每一個分割點的時候,都需要進行分裂增益的計算,消耗的代價大。
LightGBM用的是直方圖(Histogram)的決策樹算法,直方圖算法的基本思想是先把連續(xù)的浮點特征值離散化成k個整數(shù),同時構(gòu)造一個寬度為k的直方圖。在遍歷數(shù)據(jù)的時候,根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計量,當(dāng)遍歷一次數(shù)據(jù)后,直方圖累積了需要的統(tǒng)計量,然后根據(jù)直方圖的離散值,遍歷尋找最優(yōu)的分割點。
2.準(zhǔn)確率上的優(yōu)化:

xgboost 通過level(depth)-wise策略生長樹, Level-wise過一次數(shù)據(jù)可以同時分裂同一層的葉子,容易進行多線程優(yōu)化,也好控制模型復(fù)雜度,不容易過擬合。但實際上Level-wise是一種低效的算法,因為它不加區(qū)分的對待同一層的葉子,帶來了很多沒必要的開銷,因為實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂。
LightGBM通過leaf-wise(best-first)策略來生長樹, Leaf-wise則是一種更為高效的策略,每次從當(dāng)前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環(huán)。因此同Level-wise相比,在分裂次數(shù)相同的情況下,Leaf-wise可以降低更多的誤差,得到更好的精度。Leaf-wise的缺點是可能會長出比較深的決策樹,產(chǎn)生過擬合。因此LightGBM在Leaf-wise之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。
3.對類別型特征的處理:

xgboost不支持直接導(dǎo)入類別型變量,需要預(yù)先對類別型變量作亞編碼等處理。如果類別型特征較多,會導(dǎo)致啞變量處理后衍生后的特征過多,學(xué)習(xí)樹會生長的非常不平衡,并且需要非常深的深度才能來達到較好的準(zhǔn)確率。
LightGBM可以支持直接導(dǎo)入類別型變量(導(dǎo)入前需要將字符型轉(zhuǎn)為整數(shù)型,并且需要聲明類別型特征的字段名),它沒有對類別型特征進行獨熱編碼,因此速度比獨熱編碼快得多。LightGBM使用了一個特殊的算法來確定屬性特征的分割值。基本思想是對類別按照與目標(biāo)標(biāo)簽的相關(guān)性進行重排序,具體一點是對于保存了類別特征的直方圖根據(jù)其累計值(sum_gradient/sum_hessian)重排序,在排序好的直方圖上選取最佳切分位置。

—————————————————————————————————————————

與線性回歸一樣,邏輯回歸的假設(shè)是什么?

————————————————————————————————————————

  • 因變量滿足二項分布
  • 零均值假設(shè):隨機誤差項均值為0。
  • 同方差假設(shè):隨機誤差項方差相同。若滿足這一特性,稱模型具有同方差性
  • 無自相關(guān)假設(shè):若不滿足這一特性,稱模型具有自相關(guān)性(Autocorrelation)。

線性回歸的假設(shè):

  • 自變量與因變量線性相關(guān)
  • 自變量之間相互獨立
  • 誤差項之間相互獨立
  • 誤差項滿足正態(tài)分布,期望為0
  • 自變量與誤差項之間相互獨立

————————————————————————————————————————

講一下你的科研經(jīng)歷,你認為你論文的優(yōu)勢在哪?

你的研究生學(xué)習(xí)是統(tǒng)計多一些還是算法多一些?

y標(biāo)簽是怎么定義的?

反問:

新浪金融平時的具體工作是什么呢? 風(fēng)險 + 轉(zhuǎn)化

新浪金融想對比別的平臺的優(yōu)勢是什么呢? 有的名義上的數(shù)據(jù)驅(qū)動,其實還是人工驅(qū)動;新浪金融做到了從上到下的數(shù)據(jù)驅(qū)動

面試官小哥哥挺溫和的,還跟我講了他們對于校招和社招的不同要求,

校招:邏輯性一定要好,你得能把一個東西講明白; 而且統(tǒng)計知識什么的你得會,總不能招你進來再學(xué)吧;

社招:更注重的是業(yè)務(wù)sense和對業(yè)務(wù)的理解和把控

還和我講了一下未來風(fēng)控的分支和發(fā)展方向。

感覺自己答得一般般,好多細節(jié)只是看過說不出來,不過確實收獲很多。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。