【面經(jīng)】數(shù)據(jù)分析崗_面試題整理總結(jié)(持續(xù)更新中…)

偏統(tǒng)計(jì)理論知識(shí)

1. 撲克牌54張,平均分成2份,求這2份都有2張A的概率。
  • M表示兩個(gè)牌堆各有2個(gè)A的情況:M=4(25!25!)
    N表示兩個(gè)牌堆完全隨機(jī)的情況:N=27!27!
    所以概率為:M/N = 9
    26/53*17
2.男生點(diǎn)擊率增加,女生點(diǎn)擊率增加,總體為何減少?
  • 因?yàn)槟信狞c(diǎn)擊率可能有較大差異,同時(shí)低點(diǎn)擊率群體的占比增大。
    如原來(lái)男性20人,點(diǎn)擊1人;女性100人,點(diǎn)擊99人,總點(diǎn)擊率100/120。
    現(xiàn)在男性100人,點(diǎn)擊6人;女性20人,點(diǎn)擊20人,總點(diǎn)擊率26/120。
    即那個(gè)段子“A系中智商最低的人去讀B,同時(shí)提高了A系和B系的平均智商?!?/li>
3. 參數(shù)估計(jì)

用樣本統(tǒng)計(jì)量去估計(jì)總體的參數(shù)。
可參考https://blog.csdn.net/liuyuemaicha/article/details/52497512

4. 假設(shè)檢驗(yàn)

參數(shù)估計(jì)和假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷的兩個(gè)組成部分,它們都是利用樣本對(duì)總體進(jìn)行某種推斷,但推斷的角度不同。
參數(shù)估計(jì)討論的是用樣本估計(jì)總體參數(shù)的方法,總體參數(shù)μ在估計(jì)前是未知的。
而在假設(shè)檢驗(yàn)中,則是先對(duì)μ的值提出一個(gè)假設(shè),然后利用樣本信息去檢驗(yàn)這個(gè)假設(shè)是否成立。
可參考https://www.zhihu.com/question/23149768/answer/282842210

5. 置信度、置信區(qū)間

置信區(qū)間是我們所計(jì)算出的變量存在的范圍,之心水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范圍的可信程度。
舉例來(lái)講,有95%的把握,真正的數(shù)值在我們所計(jì)算的范圍里。
在這里,95%是置信水平,而計(jì)算出的范圍,就是置信區(qū)間。
如果置信度為95%, 則抽取100個(gè)樣本來(lái)估計(jì)總體的均值,由100個(gè)樣本所構(gòu)造的100個(gè)區(qū)間中,約有95個(gè)區(qū)間包含總體均值。

可參考http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml

6. 協(xié)方差與相關(guān)系數(shù)的區(qū)別和聯(lián)系。

協(xié)方差:
協(xié)方差表示的是兩個(gè)變量的總體的誤差,這與只表示一個(gè)變量誤差的方差不同。 如果兩個(gè)變量的變化趨勢(shì)一致,也就是說(shuō)如果其中一個(gè)大于自身的期望值,另外一個(gè)也大于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是正值。 如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)大于自身的期望值,另外一個(gè)卻小于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。
相關(guān)系數(shù):
研究變量之間線性相關(guān)程度的量,取值范圍是[-1,1]。相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個(gè)變量量綱影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差。

可參考http://blog.sina.com.cn/s/blog_6aa3b1010102xkp5.html

7. 中心極限定理
  • 中心極限定理定義:
    (1)任何一個(gè)樣本的平均值將會(huì)約等于其所在總體的平均值。
    (2)不管總體是什么分布,任意一個(gè)總體的樣本平均值都會(huì)圍繞在總體的平均值周?chē)⑶页收龖B(tài)分布。
  • 中心極限定理作用:
    (1)在沒(méi)有辦法得到總體全部數(shù)據(jù)的情況下,我們可以用樣本來(lái)估計(jì)總體。
    (2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差,判斷某個(gè)樣本是否屬于總體。

可參考https://www.zhihu.com/question/22913867/answer/250046834

8. p值的含義。
  • 基本原理只有3個(gè): 1、一個(gè)命題只能證偽,不能證明為真 2、在一次觀測(cè)中,小概率事件不可能發(fā)生 3、在一次觀測(cè)中,如果小概率事件發(fā)生了,那就是假設(shè)命題為假
  • 證明邏輯就是:我要證明命題為真->證明該命題的否命題為假->在否命題的假設(shè)下,觀察到小概率事件發(fā)生了->否命題被推翻->原命題為真->搞定。
    結(jié)合這個(gè)例子來(lái)看:證明A是合格的投手-》證明“A不是合格投手”的命題為假-》觀察到一個(gè)事件(比如A連續(xù)10次投中10環(huán)),而這個(gè)事件在“A不是合格投手”的假設(shè)下,概率為p,小于0.05->小概率事件發(fā)生,否命題被推翻。

可以看到p越小-》這個(gè)事件越是小概率事件-》否命題越可能被推翻-》原命題越可信

--
作者:吉米多維奇
鏈接:https://www.zhihu.com/question/23149768/answer/31704861

9.時(shí)間序列分析

是同一現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成的序列。


image.png
9.怎么向小孩子解釋正態(tài)分布

(隨口追問(wèn)了一句小孩子的智力水平,面試官說(shuō)七八歲,能數(shù)數(shù))

  • 拿出小朋友班級(jí)的成績(jī)表,每隔2分統(tǒng)計(jì)一下人數(shù)(因?yàn)樾W(xué)一年級(jí)大家成績(jī)很接近),畫(huà)出鐘形。然后說(shuō)這就是正態(tài)分布,大多數(shù)的人都集中在中間,只有少數(shù)特別好和不夠好
  • 拿出隔壁班的成績(jī)表,讓小朋友自己畫(huà)畫(huà)看,發(fā)現(xiàn)也是這樣的現(xiàn)象
  • 然后拿出班級(jí)的身高表,發(fā)現(xiàn)也是這個(gè)樣子的
  • 大部分人之間是沒(méi)有太大差別的,只有少數(shù)人特別好和不夠好,這是生活里普遍看到的現(xiàn)象,這就是正態(tài)分布
10. 下面對(duì)于“預(yù)測(cè)變量間可能存在較嚴(yán)重的多重共線性”的論述中錯(cuò)誤的是?

A. 回歸系數(shù)的符號(hào)與專家經(jīng)驗(yàn)知識(shí)不符(對(duì))
B. 方差膨脹因子(VIF)<5(錯(cuò),大于10認(rèn)為有嚴(yán)重多重共線性)
C. 其中兩個(gè)預(yù)測(cè)變量的相關(guān)系數(shù)>=0.85(對(duì))
D. 變量重要性與專家經(jīng)驗(yàn)嚴(yán)重違背(對(duì))

11. PCA為什么要中心化?PCA的主成分是什么?
  • 因?yàn)橐銋f(xié)方差。
    單純的線性變換只是產(chǎn)生了倍數(shù)縮放,無(wú)法消除量綱對(duì)協(xié)方差的影響,而協(xié)方差是為了讓投影后方差最大。

  • 在統(tǒng)計(jì)學(xué)中,主成分分析(PCA)是一種簡(jiǎn)化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。這是通過(guò)保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。
    主成分分析的原理是設(shè)法將原來(lái)變量重新組合成一組新的相互無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上處理降維的一種方法。主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。

15. 極大似然估計(jì)

利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值。
參考https://blog.csdn.net/zengxiantao1994/article/details/72787849

偏業(yè)務(wù)思維邏輯

1. 不用任何公開(kāi)參考資料,估算今年新生兒出生數(shù)量。
  • 采用兩層模型(人群畫(huà)像x人群轉(zhuǎn)化):新生兒出生數(shù)=Σ各年齡層育齡女性數(shù)量*各年齡層生育比率

(一般面試中采用這種方法,即費(fèi)米估計(jì)問(wèn)題,可以參考《這也能想到?——巧妙解答無(wú)厘頭問(wèn)題》)

  • 從數(shù)字到數(shù)字:如果有前幾年新生兒出生數(shù)量數(shù)據(jù),建立時(shí)間序列模型(需要考慮到二胎放開(kāi)的突變事件)進(jìn)行預(yù)測(cè)
  • 找先兆指標(biāo),如嬰兒類用品的新增活躍用戶數(shù)量X表示新生兒家庭用戶。Xn/新生兒n為該年新生兒家庭用戶的轉(zhuǎn)化率,如X2007/新生兒2007為2007年新生兒家庭用戶的轉(zhuǎn)化率。該轉(zhuǎn)化率會(huì)隨平臺(tái)發(fā)展而發(fā)展,可以根據(jù)往年數(shù)量推出今年的大致轉(zhuǎn)化率,并根據(jù)今年新增新生兒家庭用戶數(shù)量推出今年估計(jì)的新生兒數(shù)量。
2. 如果次日用戶留存率下降了 5%該怎么分析?
  • 首先采用“兩層模型”分析:對(duì)用戶進(jìn)行細(xì)分,包括新老、渠道、活動(dòng)、畫(huà)像等多個(gè)維度,然后分別計(jì)算每個(gè)維度下不同用戶的次日留存率。通過(guò)這種方法定位到導(dǎo)致留存率下降的用戶群體是誰(shuí)。
  • 對(duì)于目標(biāo)群體次日留存下降問(wèn)題,具體情況具體分析。具體分析可以采用“內(nèi)部-外部”因素考慮。
    a. 內(nèi)部因素分為獲客(渠道質(zhì)量低、活動(dòng)獲取非目標(biāo)用戶)、滿足需求(新功能改動(dòng)引發(fā)某類用戶不滿)、提活手段(簽到等提活手段沒(méi)達(dá)成目標(biāo)、產(chǎn)品自然使用周期低導(dǎo)致上次獲得的大量用戶短期內(nèi)不需要再使用等);
    b. 外部因素采用PEST分析(宏觀經(jīng)濟(jì)環(huán)境分析),政治(政策影響)、經(jīng)濟(jì)(短期內(nèi)主要是競(jìng)爭(zhēng)環(huán)境,如對(duì)競(jìng)爭(zhēng)對(duì)手的活動(dòng))、社會(huì)(輿論壓力、用戶生活方式變化、消費(fèi)心理變化、價(jià)值觀變化等偏好變化)、技術(shù)(創(chuàng)新解決方案的出現(xiàn)、分銷渠道變化等)。
3. 賣(mài)玉米如何提高收益??jī)r(jià)格提高多少才能獲取最大收益?
  • 收益 = 單價(jià)*銷售量,那么我們的策略是提高單位溢價(jià)或者提高銷售規(guī)模。
    • 提高單位溢價(jià)的方法:
      (1)品牌打造獲得長(zhǎng)期溢價(jià),但缺陷是需要大量前期營(yíng)銷投入;
      (2)加工商品占據(jù)價(jià)值鏈更多環(huán)節(jié),如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如禮品化等;
      (3)價(jià)格歧視,根據(jù)價(jià)格敏感度對(duì)不同用戶采用不同定價(jià)。
    • 銷售量=流量x轉(zhuǎn)化率,上述提高單位溢價(jià)的方法可能對(duì)流量產(chǎn)生影響,也可能對(duì)轉(zhuǎn)化率產(chǎn)生影響。
  • 收益 = 單價(jià)x流量x轉(zhuǎn)化率,短期內(nèi)能規(guī)模化采用的應(yīng)該是進(jìn)行價(jià)格歧視,如不同時(shí)間、不同商圈的玉米價(jià)格不同,采取高定價(jià),然后對(duì)價(jià)格敏感的用戶提供優(yōu)惠券等。
4. 類比到頭條的收益,頭條放多少?gòu)V告可以獲得最大收益,不需要真的計(jì)算,只要有個(gè)思路就行。
  • 收益 = 出價(jià)x流量x點(diǎn)擊率x有效轉(zhuǎn)化率,放廣告的數(shù)量會(huì)提高流量,但會(huì)降低匹配程度,因此降低點(diǎn)擊率。最大收益是找到這個(gè)乘積的最大值,是一個(gè)有約束條件的最優(yōu)化問(wèn)題。
    同時(shí)參考價(jià)格歧視方案,可以對(duì)不同的用戶投放不同數(shù)量的廣告。
5.APP激活量的來(lái)源渠道很多,怎樣對(duì)來(lái)源渠道變化大的進(jìn)行預(yù)警?
  • 如果渠道使用時(shí)間較長(zhǎng),認(rèn)為渠道的app激活量滿足一個(gè)分布,比較可能是正態(tài)分布。求平均值和標(biāo)準(zhǔn)差,對(duì)于今日數(shù)值與均值差大于3/2/1個(gè)標(biāo)準(zhǔn)差的渠道進(jìn)行預(yù)警。
  • 對(duì)于短期的新渠道,直接與均值進(jìn)行對(duì)比。
6.用戶剛進(jìn)來(lái)APP的時(shí)候會(huì)選擇屬性,怎樣在保證有完整用戶信息的同時(shí)讓用戶流失減少?
  • 采用技術(shù)接受模型(TAM)來(lái)分析,影響用戶接受選擇屬性這件事的主要因素有:

技術(shù)接受模型提出了兩個(gè)主要的決定因素:
①感知的有用性(perceived usefulness),反映一個(gè)人認(rèn)為使用一個(gè)具體的系統(tǒng)對(duì)他工作業(yè)績(jī)提高的程度;
②感知的易用性(perceived ease of use),反映一個(gè)人認(rèn)為容易使用一個(gè)具體的系統(tǒng)的程度。

(1)感知有用性:
a. 文案告知用戶選擇屬性能給用戶帶來(lái)的好處
(2)感知易用性:
a. 關(guān)聯(lián)用戶第三方賬號(hào)(如微博),可以冷啟動(dòng)階段匹配用戶更有可能選擇的屬性,推薦用戶選擇。
b. 交互性做好。
(3)使用者態(tài)度:用戶對(duì)填寫(xiě)信息的態(tài)度
a. 這里需要允許用戶跳過(guò),后續(xù)再提醒用戶填寫(xiě)
b. 告知用戶填寫(xiě)的信息會(huì)受到很好的保護(hù)
(4)行為意圖:用戶使用APP的目的性,難以控制
(5)外部變量:如操作時(shí)間、操作環(huán)境等,這里難以控制

7.如何識(shí)別作弊用戶(爬蟲(chóng)程序, 或者渠道偽造的假用戶)
  • 分類問(wèn)題可以用機(jī)器學(xué)習(xí)的方法去解決,下面是我目前想到的特征:
    (1)渠道特征:渠道、渠道次日留存率、渠道流量以及各種比率特征
    (2)環(huán)境特征:設(shè)備(一般偽造假用戶的工作坊以低端機(jī)為主)、系統(tǒng)(刷量工作坊一般系統(tǒng)更新較慢)、wifi使用情況、使用時(shí)間、來(lái)源地區(qū)、ip是否進(jìn)過(guò)黑名單
    (3)用戶行為特征:訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)頁(yè)面、使用間隔、次日留存、活躍時(shí)間、頁(yè)面跳轉(zhuǎn)行為(假用戶的行為要么過(guò)于一致,要么過(guò)于隨機(jī))、頁(yè)面使用行為(正常用戶對(duì)圖片的點(diǎn)擊也是有分布的,假用戶的行為容易過(guò)于隨機(jī))
    (4)異常特征:設(shè)備號(hào)異常(頻繁重置idfa)、ip異常(異地訪問(wèn))、行為異常(突然大量點(diǎn)擊廣告、點(diǎn)贊)、數(shù)據(jù)包不完整等
8.怎么做惡意刷單檢測(cè)?
  • 分類問(wèn)題用機(jī)器學(xué)習(xí)方法建模解決,我想到的特征有:
    (1)商家特征:商家歷史銷量、信用、產(chǎn)品類別、發(fā)貨快遞公司等
    (2)用戶行為特征:用戶信用、下單量、轉(zhuǎn)化率、下單路徑、瀏覽店鋪行為、支付賬號(hào)
    (3)環(huán)境特征(主要是避免機(jī)器刷單):地區(qū)、ip、手機(jī)型號(hào)等
    (4)異常檢測(cè):ip地址經(jīng)常變動(dòng)、經(jīng)常清空cookie信息、賬號(hào)近期交易成功率上升等
    (5)評(píng)論文本檢測(cè):刷單的評(píng)論文本可能套路較為一致,計(jì)算與已標(biāo)注評(píng)論文本的相似度作為特征
    (6)圖片相似度檢測(cè):同理,刷單可能重復(fù)利用圖片進(jìn)行評(píng)論
9.一個(gè)網(wǎng)站銷售額變低,你從哪幾個(gè)方面去考量?
  • 首先要定位到現(xiàn)象真正發(fā)生的位置,到底是誰(shuí)的銷售額變低了?這里劃分的維度有:
    a. 用戶(畫(huà)像、來(lái)源地區(qū)、新老、渠道等)
    b. 產(chǎn)品或欄目
    c. 訪問(wèn)時(shí)段
  • 定位到發(fā)生未知后,進(jìn)行問(wèn)題拆解,關(guān)注目標(biāo)群體中哪個(gè)指標(biāo)下降導(dǎo)致網(wǎng)站銷售額下降:
    a. 銷售額=入站流量x下單率x客單價(jià)
    b. 入站流量 = Σ各來(lái)源流量x轉(zhuǎn)化率
    c. 下單率 = 頁(yè)面訪問(wèn)量x轉(zhuǎn)化率
    d. 客單價(jià) = 商品數(shù)量x商品價(jià)格
  • 確定問(wèn)題源頭后,對(duì)問(wèn)題原因進(jìn)行分析,如采用內(nèi)外部框架:
    a. 內(nèi)部:網(wǎng)站改版、產(chǎn)品更新、廣告投放
    b. 外部:用戶偏好變化、媒體新聞、經(jīng)濟(jì)壞境、競(jìng)品行為等
10.用戶流失的分析,新用戶流失和老用戶流失有什么不同?

(1)用戶流失分析:

  • 兩層模型:細(xì)分用戶、產(chǎn)品、渠道,看到底是哪里用戶流失了。注意由于是用戶流失問(wèn)題,所以這里細(xì)分用戶時(shí)可以細(xì)分用戶處在生命周期的哪個(gè)階段。
  • 指標(biāo)拆解:用戶流失數(shù)量 = 該群體用戶數(shù)量*流失率。拆解,看是因?yàn)榈搅诉@個(gè)階段的用戶數(shù)量多了(比如說(shuō)大部分用戶到了衰退期),還是這個(gè)用戶群體的流失率比較高
  • 內(nèi)外部分析:
    a. 內(nèi)部:新手上手難度大、收費(fèi)不合理、產(chǎn)品服務(wù)出現(xiàn)重大問(wèn)題、活動(dòng)質(zhì)量低、缺少留存手段、用戶參與度低等
    b. 外部:市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、社會(huì)環(huán)境、節(jié)假日等

(2)新用戶流失和老用戶流失有什么不同:

  • 新用戶流失:原因可能有非目標(biāo)用戶(剛性流失)、產(chǎn)品不滿足需求(自然流失)、產(chǎn)品難以上手(受挫流失)和競(jìng)爭(zhēng)產(chǎn)品影響(市場(chǎng)流失)。
    新用戶要考慮如何在較少的數(shù)據(jù)支撐下做流失用戶識(shí)別,提前防止用戶流失,并如何對(duì)有效的新用戶進(jìn)行挽回。
  • 老用戶流失:原因可能有到達(dá)用戶生命周期衰退期(自然流失)、過(guò)度拉升arpu導(dǎo)致低端用戶驅(qū)逐(剛性流失)、社交蒸發(fā)難以滿足前期用戶需求(受挫流失)和競(jìng)爭(zhēng)產(chǎn)品影響(市場(chǎng)流失)。
    老用戶有較多的數(shù)據(jù),更容易進(jìn)行流失用戶識(shí)別,做好防止用戶流失更重要。當(dāng)用戶流失后,要考慮用戶生命周期剩余價(jià)值,是否需要進(jìn)行挽回。
    (參考@王瑋 的回答:https://www.zhihu.com/question/26225801
11.GMV升了20%怎么分析?

(我噼里啪啦分析了一通面試官笑嘻嘻地告訴我是數(shù)據(jù)錯(cuò)了,因?yàn)槊嬖囕^緊張沒(méi)有意識(shí)到這個(gè)問(wèn)題,現(xiàn)在想想真是個(gè)大坑啊)

  • 參考該面試者經(jīng)驗(yàn),應(yīng)該先估算一下數(shù)字有沒(méi)有問(wèn)題
  • 同樣的套路:
    (1)兩層模型:進(jìn)行用戶群體、產(chǎn)品、渠道細(xì)分,發(fā)現(xiàn)到底是誰(shuí)的GMV提升了
    (2)指標(biāo)拆解:將GMV拆解成乘法模型,如GMV=廣告投放數(shù)量廣告點(diǎn)擊率產(chǎn)品瀏覽量放入購(gòu)物車(chē)率交易成功率*客單價(jià),檢查哪一步有顯著變化導(dǎo)致了GMV上升
    (3)內(nèi)外部分析:
    a. 內(nèi)部:網(wǎng)站、產(chǎn)品、廣告投放、活動(dòng)等
    b. 外部:套PEST等框架也行,或者直接分析也行,注意MEMC即可

這一題要注意,GMV流水包括取消的訂單金額和退貨/拒收的訂單金額,還有一種原因是商家刷單然后退貨,雖然GMV上去了,但是實(shí)際成交量并沒(méi)有那么多。

11.如果現(xiàn)在有個(gè)情景,我們有一款游戲收入下降了,你怎么分析。
  • 兩層模型:細(xì)分用戶、渠道、產(chǎn)品,看到底是哪里的收入下降了
  • 指標(biāo)拆解:收入 = 玩家數(shù)量 * 活躍占比 * 付費(fèi)轉(zhuǎn)化率 * 付費(fèi)次數(shù) * 客單價(jià)
    進(jìn)一步細(xì)分,如玩家數(shù)量 = 老玩家數(shù)量 * 活躍度 + 新玩家數(shù)量 * 留存率等。然后對(duì)各個(gè)指標(biāo)與以往的數(shù)據(jù)進(jìn)行對(duì)比,發(fā)現(xiàn)哪些環(huán)節(jié)導(dǎo)致收入下降
  • 原因分析:
    a. 內(nèi)部:產(chǎn)品變化、促活活動(dòng)、拉新活動(dòng)、定價(jià)策略、運(yùn)營(yíng)策略、服務(wù)器故障等
    b. 外部:用戶偏好變化、市場(chǎng)環(huán)境變化、輿論環(huán)境變化、競(jìng)爭(zhēng)對(duì)手行為、外部渠道變化等
  • 如何提高:基于乘法模型,可以采用上限分析,從前往后依次將指標(biāo)提升到投入足夠精力(假設(shè)優(yōu)先分配人力、經(jīng)費(fèi)與渠道)后的上限,然后分析“收入”指標(biāo)的數(shù)值提升。找到數(shù)值提升最快的那個(gè)階段,就是我們提高收入的關(guān)鍵任務(wù)
12.現(xiàn)在有一個(gè)游戲測(cè)試的環(huán)節(jié),游戲測(cè)試結(jié)束后需要根據(jù)數(shù)據(jù)提交一份PPT,這個(gè)PPT你會(huì)如何安排?包括什么內(nèi)容?

這里可以套AARRR模型:

獲取用戶(Acquisition)
提高活躍度(Activation)
提高留存率(Retention)
獲取收入(Revenue)
自傳播(Refer)

  • 獲取:我們的用戶是誰(shuí)?用戶規(guī)模多大?
    a. 用戶分層
  • 激活:游戲是否吸引玩家?哪個(gè)渠道獲取的用戶有質(zhì)量(如次日留存高、首日停留時(shí)間長(zhǎng)等)?
  • 留存:用戶能否持續(xù)留存?哪些用戶可以留存?
  • 轉(zhuǎn)化:用戶的游戲行為如何?能否進(jìn)行轉(zhuǎn)化?能否持續(xù)轉(zhuǎn)化?
  • 自傳播:用戶是否會(huì)向他人推薦該游戲?哪種方式能有效鼓勵(lì)用戶推薦該游戲?傳播k因子是否大于1?
13.比如你對(duì)樓市不熟悉,現(xiàn)在要你去做一個(gè)像58同城之類的,賣(mài)房的中介,電商,你會(huì)如何進(jìn)行分析。

(1)商業(yè)模式分析:中介做的是雙邊市場(chǎng)生意,通過(guò)解決市場(chǎng)信息不對(duì)稱下的信息流動(dòng)問(wèn)題,降低買(mǎi)方和賣(mài)方的交易成本,從而創(chuàng)造盈利空間
(2)需求分析:
a. 買(mǎi)方需求分析:低價(jià)買(mǎi)好房,對(duì)時(shí)間的需求有快的和慢的
b. 賣(mài)方需求分析:房子賣(mài)高價(jià),對(duì)時(shí)間的需求有快的和慢的
(3)進(jìn)入條件分析(套SWOT分析法(態(tài)勢(shì)分析法)也行):
a. 自身?xiàng)l件
b. 競(jìng)爭(zhēng)對(duì)手
c. 市場(chǎng)增長(zhǎng)規(guī)模
(4)進(jìn)入策略分析:
a. 自身目標(biāo)
b. 目標(biāo)拆解
c. 分析目標(biāo)達(dá)成的可能性,預(yù)估將來(lái)一段時(shí)間,好/正常/壞條件下的目標(biāo)達(dá)成情況
d. 得出結(jié)論:是否進(jìn)入該市場(chǎng)

14. 某業(yè)務(wù)部門(mén)在上周結(jié)束了為期一周的大促,作為業(yè)務(wù)對(duì)口分析師,需要你對(duì)活動(dòng)進(jìn)行一次評(píng)估,你會(huì)從哪幾方面進(jìn)行分析?

(1) 確定大促的目的:拉新?促活?清庫(kù)存?
(2) 根據(jù)目的確定核心指標(biāo)。
(3) 效果評(píng)估:
a. 自身比較:活動(dòng)前與活動(dòng)中比較
b. 與預(yù)定目標(biāo)比
c. 與同期其它活動(dòng)比
d. 與往期同類活動(dòng)比
(4)持續(xù)監(jiān)控:
a. 檢查活動(dòng)后情況,避免透支消費(fèi)情況發(fā)生
b. 如果是拉新等活動(dòng),根據(jù)后續(xù)數(shù)據(jù)檢驗(yàn)這批新客的質(zhì)量

偏機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘

1. 給你一個(gè)無(wú)序數(shù)組,怎么才能合理采樣?
  • 無(wú)序數(shù)組是相對(duì)有序數(shù)組而言的,無(wú)序數(shù)組并不等于隨機(jī),我們要做的是將無(wú)序數(shù)組洗牌,得到隨機(jī)排列。
    對(duì)于無(wú)序數(shù)組,n個(gè)元素能產(chǎn)生n!種排序。如果洗牌算法能產(chǎn)生n!種不同的結(jié)果,并且這些結(jié)果產(chǎn)生的概率相等,那么這個(gè)洗牌算法是正確的。
    方法:for i in range(len(n)): swap(arr[i], arr[random(i,n)])
    這段代碼是對(duì)隨機(jī)確定數(shù)組第一位的值,然后遞歸對(duì)剩余的數(shù)組進(jìn)行相同的過(guò)程,可以產(chǎn)生n!中等可能的排序情況。

參考資料:https://blog.csdn.net/rtian001/article/details/50348999;https://blog.csdn.net/jiang_zzz/article/details/53786999

2. 常用的Python庫(kù)有哪些?
  • numpy:矩陣運(yùn)算
  • sklearn:常用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具庫(kù)
  • scipy:基于numpy做高效的數(shù)學(xué)計(jì)算,如積分、線性代數(shù)、稀疏矩陣等
  • pandas:將數(shù)據(jù)用表的形式進(jìn)行操作
  • matplotlib:數(shù)據(jù)可視化工具
  • seaborn:數(shù)據(jù)可視化工具
  • keras/tensorflow/theano:深度學(xué)習(xí)工具包
  • NLTK:自然語(yǔ)言處理工具包
  • beautifulsoap:網(wǎng)頁(yè)文檔解析工具
3. 行存儲(chǔ)和列存儲(chǔ)的區(qū)別。
  • (1)行存儲(chǔ):傳統(tǒng)數(shù)據(jù)庫(kù)的存儲(chǔ)方式,同一張表內(nèi)的數(shù)據(jù)放在一起,插入更新很快。缺點(diǎn)是每次查詢即使只涉及幾列,也要把所有數(shù)據(jù)讀取.
    (2)列存儲(chǔ):OLAP等情況下,將數(shù)據(jù)按照列存儲(chǔ)會(huì)更高效,每一列都可以成為索引,投影很高效。缺點(diǎn)是查詢是選擇完成時(shí),需要對(duì)選擇的列進(jìn)行重新組裝。
    “當(dāng)你的核心業(yè)務(wù)是 OLTP 時(shí),一個(gè)行式數(shù)據(jù)庫(kù),再加上優(yōu)化操作,可能是個(gè)最好的選擇。
    當(dāng)你的核心業(yè)務(wù)是 OLAP 時(shí),一個(gè)列式數(shù)據(jù)庫(kù),絕對(duì)是更好的選擇”

參考:https://blog.csdn.net/qq_26091271/article/details/51778675https://www.zhihu.com/question/29380943

4.K-Means算法原理及改進(jìn),遇到異常值怎么辦?評(píng)估算法的指標(biāo)有哪些?
  • k-means原理
    在給定K值和K個(gè)初始類簇中心點(diǎn)的情況下,把每個(gè)點(diǎn)(亦即數(shù)據(jù)記錄)分到離其最近的類簇中心點(diǎn)所代表的類簇中,所有點(diǎn)分配完畢之后,根據(jù)一個(gè)類簇內(nèi)的所有點(diǎn)重新計(jì)算該類簇的中心點(diǎn)(取平均值),然后再迭代的進(jìn)行分配點(diǎn)和更新類簇中心點(diǎn)的步驟,直至類簇中心點(diǎn)的變化很小,或者達(dá)到指定的迭代次數(shù)。
  • 改進(jìn)
    a. kmeans++:初始隨機(jī)點(diǎn)選擇盡可能遠(yuǎn),避免陷入局部解。方法是n+1個(gè)中心點(diǎn)選擇時(shí),對(duì)于離前n個(gè)點(diǎn)選擇到的概率更大
    b. mini batch kmeans:每次只用一個(gè)子集做重入類并找到類心(提高訓(xùn)練速度)
    c. ISODATA:對(duì)于難以確定k的時(shí)候,使用該方法。思路是當(dāng)類下的樣本小時(shí),剔除;類下樣本數(shù)量多時(shí),拆分
    d. kernel kmeans:kmeans用歐氏距離計(jì)算相似度,也可以使用kernel映射到高維空間再聚類
  • 遇到異常值
    a. 有條件的話使用密度聚類或者一些軟聚類的方式先聚類,剔除異常值。不過(guò)本來(lái)用kmeans就是為了快,這么做有些南轅北轍了
    b. 局部異常因子LOF:如果點(diǎn)p的密度明顯小于其鄰域點(diǎn)的密度,那么點(diǎn)p可能是異常值
    (參考:https://blog.csdn.net/wangyibo0201/article/details/51705966
    c. 多元高斯分布異常點(diǎn)檢測(cè)
    d. 使用PCA或自動(dòng)編碼機(jī)進(jìn)行異常點(diǎn)檢測(cè):使用降維后的維度作為新的特征空間,其降維結(jié)果可以認(rèn)為剔除了異常值的影響(因?yàn)檫^(guò)程是保留使投影后方差最大的投影方向)
    e. isolation forest:基本思路是建立樹(shù)模型,一個(gè)節(jié)點(diǎn)所在的樹(shù)深度越低,說(shuō)明將其從樣本空間劃分出去越容易,因此越可能是異常值。是一種無(wú)監(jiān)督的方法,隨機(jī)選擇n個(gè)sumsampe,隨機(jī)選擇一個(gè)特征一個(gè)值。
    (參考:https://blog.csdn.net/u013709270/article/details/73436588
    f. winsorize:對(duì)于簡(jiǎn)單的,可以對(duì)單一維度做上下截取
  • 評(píng)估聚類算法的指標(biāo)
    a. 外部法(基于有標(biāo)注):Jaccard系數(shù)、純度
    b. 內(nèi)部法(無(wú)標(biāo)注):內(nèi)平方和WSS和外平方和BSS
    c. 此外還要考慮到算法的時(shí)間空間復(fù)雜度、聚類穩(wěn)定性等
5.數(shù)據(jù)預(yù)處理過(guò)程有哪些?
  • 缺失值處理:刪、插
  • 異常值處理
  • 特征轉(zhuǎn)換:時(shí)間特征sin化表示
  • 標(biāo)準(zhǔn)化:最大最小標(biāo)準(zhǔn)化、z標(biāo)準(zhǔn)化等
  • 歸一化:對(duì)于文本或評(píng)分特征,不同樣本之間可能有整體上的差異,如a文本共20個(gè)詞,b文本30000個(gè)詞,b文本中各個(gè)維度上的頻次都很可能遠(yuǎn)遠(yuǎn)高于a文本
  • 離散化:onehot、分箱等
6. 隨機(jī)森林原理?有哪些隨機(jī)方法?
  • 隨機(jī)森林原理:通過(guò)構(gòu)造多個(gè)決策樹(shù),做bagging以提高泛化能力
  • subsample(有放回抽樣)、subfeature、低維空間投影(特征做組合,參考林軒田的《機(jī)器學(xué)習(xí)基石》
7. PCA(主成分分析)
  • 主成分分析是一種降維的方法
  • 思想是將樣本從原來(lái)的特征空間轉(zhuǎn)化到新的特征空間,并且樣本在新特征空間坐標(biāo)軸上的投影方差盡可能大,這樣就能涵蓋樣本最主要的信息
  • 方法:
    a. 特征歸一化
    b. 求樣本特征的協(xié)方差矩陣A
    c. 求A的特征值和特征向量,即AX=λX
    d. 將特征值從大到小排列,選擇topK,對(duì)應(yīng)的特征向量就是新的坐標(biāo)軸(采用最大方差理論解釋,參考:https://blog.csdn.net/huang1024rui/article/details/46662195
  • PCA也可以看成激活函數(shù)為線性函數(shù)的自動(dòng)編碼機(jī)(參考林軒田的《機(jī)器學(xué)習(xí)基石》第13課,深度學(xué)習(xí))
8. hive?spark?sql? nlp?
  • Hive允許使用類SQL語(yǔ)句在hadoop集群上進(jìn)行讀、寫(xiě)、管理等操作
  • Spark是一種與hadoop相似的開(kāi)源集群計(jì)算環(huán)境,將數(shù)據(jù)集緩存在分布式內(nèi)存中的計(jì)算平臺(tái),每輪迭代不需要讀取磁盤(pán)的IO操作,從而答復(fù)降低了單輪迭代時(shí)間
9. Linux基本命令
  • 目錄操作:ls、cd、mkdir、find、locate、whereis等
  • 文件操作:mv、cp、rm、touch、cat、more、less
  • 權(quán)限操作:chmod+rwx421
  • 賬號(hào)操作:su、whoami、last、who、w、id、groups等
  • 查看系統(tǒng):history、top
  • 關(guān)機(jī)重啟:shutdown、reboot
  • vim操作:i、w、w!、q、q!、wq等
10. NVL函數(shù)
  • 是oracle的一個(gè)函數(shù)
  • NVL( string1, replace_with),如果string1為NULL,則NVL函數(shù)返回replace_with的值,否則返回原來(lái)的值
11. LR
  • 用于分類問(wèn)題的線性回歸
  • 采用sigmoid對(duì)輸出值進(jìn)行01轉(zhuǎn)換
  • 采用似然法求解
  • 手推
  • 優(yōu)缺點(diǎn)局限性
  • 改進(jìn)空間
12. sql中null與‘ ’的區(qū)別。
  • null表示空,用is null判斷
  • ''表示空字符串,用=''判斷
13. 數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別。
  • 簡(jiǎn)單理解下數(shù)據(jù)倉(cāng)庫(kù)是多個(gè)數(shù)據(jù)庫(kù)以一種方式組織起來(lái)
  • 數(shù)據(jù)庫(kù)強(qiáng)調(diào)范式,盡可能減少冗余
  • 數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)調(diào)查詢分析的速度,優(yōu)化讀取操作,主要目的是快速做大量數(shù)據(jù)的查詢
  • 數(shù)據(jù)倉(cāng)庫(kù)定期寫(xiě)入新數(shù)據(jù),但不覆蓋原有數(shù)據(jù),而是給數(shù)據(jù)加上時(shí)間戳標(biāo)簽
  • 數(shù)據(jù)庫(kù)采用行存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)一般采用列存儲(chǔ)(行存儲(chǔ)與列存儲(chǔ)區(qū)別見(jiàn)題3)
  • 數(shù)據(jù)倉(cāng)庫(kù)的特征是面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化,存儲(chǔ)數(shù)歷史數(shù)據(jù);數(shù)據(jù)庫(kù)是面向事務(wù)的,存儲(chǔ)在線交易數(shù)據(jù)
  • 數(shù)據(jù)倉(cāng)庫(kù)的兩個(gè)基本元素是維表和事實(shí)表,維是看待問(wèn)題的角度,比如時(shí)間、部門(mén)等,事實(shí)表放著要查詢的數(shù)據(jù)
14. SQL的數(shù)據(jù)類型。
  • 字符串:char、varchar、text
  • 二進(jìn)制串:binary、varbinary
  • 布爾類型:boolean
  • 數(shù)值類型:integer、smallint、bigint、decimal、numeric、float、real、double
  • 時(shí)間類型:date、time、timestamp、interval
15. 分類算法性能的主要評(píng)價(jià)指標(biāo)。
  • 查準(zhǔn)率、查全率、F1
  • AUC
  • LOSS
  • Gain和Lift
  • WOE和IV
16. 數(shù)據(jù)缺失怎么辦
  • 刪除樣本或刪除字段
  • 用中位數(shù)、平均值、眾數(shù)等填充
  • 插補(bǔ):同類均值插補(bǔ)、多重插補(bǔ)、極大似然估計(jì)
  • 用其它字段構(gòu)建模型,預(yù)測(cè)該字段的值,從而填充缺失值(注意:如果該字段也是用于預(yù)測(cè)模型中作為特征,那么用其它字段建模填充缺失值的方式,并沒(méi)有給最終的預(yù)測(cè)模型引入新信息)
  • onehot,將缺失值也認(rèn)為一種取值
  • 壓縮感知及矩陣補(bǔ)全
17. GBDT(梯度提升樹(shù))
  • 首先介紹Adaboost Tree,是一種boosting的樹(shù)集成方法。基本思路是依次訓(xùn)練多棵樹(shù),每棵樹(shù)訓(xùn)練時(shí)對(duì)分錯(cuò)的樣本進(jìn)行加權(quán)。樹(shù)模型中對(duì)樣本的加權(quán)實(shí)際是對(duì)樣本采樣幾率的加權(quán),在進(jìn)行有放回抽樣時(shí),分錯(cuò)的樣本更有可能被抽到
  • GBDT是Adaboost Tree的改進(jìn),每棵樹(shù)都是CART(分類回歸樹(shù)),樹(shù)在葉節(jié)點(diǎn)輸出的是一個(gè)數(shù)值,分類誤差就是真實(shí)值減去葉節(jié)點(diǎn)的輸出值,得到殘差。GBDT要做的就是使用梯度下降的方法減少分類誤差值。
    在GBDT的迭代中,假設(shè)我們前一輪迭代得到的強(qiáng)學(xué)習(xí)器是ft?1(x), 損失函數(shù)是L(y,ft?1(x)), 我們本輪迭代的目標(biāo)是找到一個(gè)CART回歸樹(shù)模型的弱學(xué)習(xí)器ht(x),讓本輪的損失損失L(y,ft(x)=L(y,ft?1(x)+ht(x))最小。也就是說(shuō),本輪迭代找到?jīng)Q策樹(shù),要讓樣本的損失盡量變得更小。
  • GBDT的思想可以用一個(gè)通俗的例子解釋,假如有個(gè)人30歲,我們首先用20歲去擬合,發(fā)現(xiàn)損失有10歲,這時(shí)我們用6歲去擬合剩下的損失,發(fā)現(xiàn)差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數(shù)還沒(méi)有完,可以繼續(xù)迭代下面,每一輪迭代,擬合的歲數(shù)誤差都會(huì)減小。
    (參考:https://www.cnblogs.com/pinard/p/6140514.html
  • 得到多棵樹(shù)后,根據(jù)每顆樹(shù)的分類誤差進(jìn)行加權(quán)投票
18. 如何避免決策樹(shù)過(guò)擬合?
  • 限制樹(shù)深
  • 剪枝
  • 限制葉節(jié)點(diǎn)數(shù)量
  • 正則化項(xiàng)
  • 增加數(shù)據(jù)
  • bagging(subsample、subfeature、低維空間投影)
  • 數(shù)據(jù)增強(qiáng)(加入有雜質(zhì)的數(shù)據(jù))
  • 早停
19.SVM的優(yōu)缺點(diǎn)
  • 優(yōu)點(diǎn):
    a. 能應(yīng)用于非線性可分的情況
    b. 最后分類時(shí)由支持向量決定,復(fù)雜度取決于支持向量的數(shù)目而不是樣本空間的維度,避免了維度災(zāi)難
    c. 具有魯棒性:因?yàn)橹皇褂蒙倭恐С窒蛄?,抓住關(guān)鍵樣本,剔除冗余樣本
    d. 高維低樣本下性能好,如文本分類
  • 缺點(diǎn):
    a. 模型訓(xùn)練復(fù)雜度高
    b. 難以適應(yīng)多分類問(wèn)題
    c. 核函數(shù)選擇沒(méi)有較好的方法論
20. 統(tǒng)計(jì)教授多門(mén)課老師數(shù)量并輸出每位老師教授課程數(shù)統(tǒng)計(jì)表。

解:設(shè)表class中字段為id,teacher,course

  • 統(tǒng)計(jì)教授多門(mén)課老師數(shù)量
    select count( * )
    from class
    group by teacher
    having count( * ) > 1
  • 輸出每位老師教授課程數(shù)統(tǒng)計(jì)
    select teacher, count(course) as count_course
    from class
    group by teacher
21. 有uid,app名稱,app類別,數(shù)據(jù)百億級(jí)別,設(shè)計(jì)算法算出每個(gè)app類別只安裝了一個(gè)app的uid總數(shù)。
  • 小數(shù)據(jù)量的話直接查詢:
select b.apptype,count(b.uid)
from
    (select uid, apptype, count(appname) as num
    from app_info
    group by uid,apptype
    having count(appname) = 1
    )b
group by b.apptype
  • 大數(shù)據(jù)量下(沒(méi)用過(guò)hadoop不太清楚,望大家指正)
    a. 原始文件可以拼接為uid-app-categroy
    b. map階段形成的<k,v>是<uid-category,1>
    c. reduce階段統(tǒng)計(jì)key為“uid-category”的count數(shù)量
    d. 只保留count為1的數(shù)據(jù)
    e. 剩下的數(shù)據(jù)量直接統(tǒng)計(jì)uid出現(xiàn)次數(shù)=category類別數(shù)的數(shù)據(jù)
22. 請(qǐng)說(shuō)明隨機(jī)森林較一般決策樹(shù)穩(wěn)定的幾點(diǎn)原因.
  • bagging的方法,多個(gè)樹(shù)投票提高泛化能力
  • bagging中引入隨機(jī)(參數(shù)、樣本、特征、空間映射),避免單棵樹(shù)的過(guò)擬合,提高整體泛化能力
23. 什么是聚類分析?聚類算法有哪幾種?請(qǐng)選擇一種詳細(xì)描述其計(jì)算原理和步驟。
  • 聚類分析是一種無(wú)監(jiān)督的學(xué)習(xí)方法,根據(jù)一定條件將相對(duì)同質(zhì)的樣本歸到一個(gè)類總。
  • 聚類方法主要有:
    a. 層次聚類
    b. 劃分聚類:kmeans
    c. 密度聚類
    d. 網(wǎng)格聚類
    e. 模型聚類:高斯混合模型
  • k-means比較好介紹,選k個(gè)點(diǎn)開(kāi)始作為聚類中心,然后剩下的點(diǎn)根據(jù)距離劃分到類中;找到新的類中心;重新分配點(diǎn);迭代直到達(dá)到收斂條件或者迭代次數(shù)。 優(yōu)點(diǎn)是快;缺點(diǎn)是要先指定k,同時(shí)對(duì)異常值很敏感。
24. 余弦距離與歐式距離求相似度的差別。
  1. 歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征的絕對(duì)差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標(biāo)分析用戶價(jià)值的相似度或差異。
    余弦距離更多的是從方向上區(qū)分差異,而對(duì)絕對(duì)的數(shù)值不敏感,更多的用于使用用戶對(duì)內(nèi)容評(píng)分來(lái)區(qū)分興趣的相似度和差異,同時(shí)修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題(因?yàn)橛嘞揖嚯x對(duì)絕對(duì)數(shù)值不敏感)。
  2. 總體來(lái)說(shuō),歐氏距離體現(xiàn)數(shù)值上的絕對(duì)差異,而余弦距離體現(xiàn)方向上的相對(duì)差異。
    (1)例如,統(tǒng)計(jì)兩部劇的用戶觀看行為,用戶A的觀看向量為(0,1),用戶B為(1,0);此時(shí)二者的余弦距很大,而歐氏距離很??;我們分析兩個(gè)用戶對(duì)于不同視頻的偏好,更關(guān)注相對(duì)差異,顯然應(yīng)當(dāng)使用余弦距離。
    (2)而當(dāng)我們分析用戶活躍度,以登陸次數(shù)(單位:次)和平均觀看時(shí)長(zhǎng)(單:分鐘)作為特征時(shí),余弦距離會(huì)認(rèn)為(1,10)、(10,100)兩個(gè)用戶距離很近;但顯然這兩個(gè)用戶活躍度是有著極大差異的,此時(shí)我們更關(guān)注數(shù)值絕對(duì)差異,應(yīng)當(dāng)使用歐氏距離。
25. 數(shù)據(jù)清理中,處理缺失值的方法是?

由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無(wú)效值和缺失值,需要給予適當(dāng)?shù)奶幚?。常用的處理方法有:估算,整例刪除,變量刪除和成對(duì)刪除。

  1. 估算(estimation)。最簡(jiǎn)單的辦法就是用某個(gè)變量的樣本均值、中位數(shù)或眾數(shù)代替無(wú)效值和缺失值。這種辦法簡(jiǎn)單,但沒(méi)有充分考慮數(shù)據(jù)中已有的信息,誤差可能較大。另一種辦法就是根據(jù)調(diào)查對(duì)象對(duì)其他問(wèn)題的答案,通過(guò)變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì)。例如,某一產(chǎn)品的擁有情況可能與家庭收入有關(guān),可以根據(jù)調(diào)查對(duì)象的家庭收入推算擁有這一產(chǎn)品的可能性。
  2. 整例刪除(casewise deletion)是剔除含有缺失值的樣本。由于很多問(wèn)卷都可能存在缺失值,這種做法的結(jié)果可能導(dǎo)致有效樣本量大大減少,無(wú)法充分利用已經(jīng)收集到的數(shù)據(jù)。因此,只適合關(guān)鍵變量缺失,或者含有無(wú)效值或缺失值的樣本比重很小的情況。
  3. 變量刪除(variable deletion)。如果某一變量的無(wú)效值和缺失值很多,而且該變量對(duì)于所研究的問(wèn)題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目,但沒(méi)有改變樣本量。
  4. 成對(duì)刪除(pairwise deletion)是用一個(gè)特殊碼(通常是9、99、999等)代表無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。但是,在具體計(jì)算時(shí)只采用有完整答案的樣本,因而不同的分析因涉及的變量不同,其有效樣本量也會(huì)有所不同。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息。

作者:稻蛙
來(lái)源:CSDN
鏈接:https://me.csdn.net/u013382288
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,701評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,691評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,974評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,694評(píng)論 6 413
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 56,026評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,193評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,719評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,668評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,846評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,255評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,592評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,394評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,635評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容