1.你如何理解P值,它的限制是什么。
P值是指原假設(shè)為真時所得到的更極端結(jié)果出現(xiàn)的概率。如果P值很小,說明這種情況發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,我們就有理由拒絕原假設(shè),P值越小,我們拒絕原假設(shè)的理由就越充分。
舉個例子,原假設(shè)是總體均值=100。現(xiàn)在我們要用樣本去估計(jì)總體,樣本與總體是有很大差別的。那么用樣本去估計(jì)總體所得出的均值,能否用來證明這個原假設(shè)呢?
這時算出P=0.01,表示總體均值為100時,樣本均值不等于100的概率。P值很小,這種情況下發(fā)生的概率很小,可是卻出現(xiàn)了,所以我們可以拒絕原假設(shè)。即總體均值不是100。
邏輯再重述一下:在總體均值為100的情況下,樣本均值不等于100是幾乎不可能的,但是現(xiàn)在樣本均值就是不等于100,所以那個假設(shè)被推翻了。
分析問題時我們一般會用P值與顯著性水平比較,一般取顯著性水平為0.05。
顯著性水平時指原假設(shè)為真時卻被拒絕的概率。
黑體字,其實(shí)效果都是等同的,更極端結(jié)果=不等于100=被拒絕。而我們所說的
α錯誤就是顯著性水平,即棄真錯誤。
P值的大小取決于三個因素,因?yàn)樗怯脕砗饬繕颖竟烙?jì)總體的效果,那么這三個因素也就不難理解了:
1.樣本數(shù)據(jù)與總體的差異。
2.樣本量
3.參數(shù)是否服從均勻分布的程度。
2.如何判斷一個硬幣是否均勻?請描述實(shí)驗(yàn)設(shè)計(jì)、建模、統(tǒng)計(jì)指標(biāo)和分析過程。
實(shí)驗(yàn)流程:做獨(dú)立重復(fù)實(shí)驗(yàn)1000次,投遞硬幣,記錄下來正反硬幣出現(xiàn)的次數(shù)、并計(jì)算正面出現(xiàn)的頻率。
建模:做一個假設(shè)檢驗(yàn),H0:正面出現(xiàn)的概率為0.5 ;H1:正面出現(xiàn)的概率不是0.5
統(tǒng)計(jì)指標(biāo):正面出現(xiàn)的頻率,并構(gòu)建Z統(tǒng)計(jì)量來做顯著性檢驗(yàn)。
分析過程:如果正面出現(xiàn)的頻率不是0.5而且計(jì)算的Z統(tǒng)計(jì)量小于0.01的顯著性水平,則我們有足夠的理由推翻原假設(shè)即該硬幣不均勻。
3大數(shù)定律在生活中的應(yīng)用,并從短期和長期的角度看待這個事情.
大數(shù)定律(law of large numbers),又稱大數(shù)定理,是一種描述當(dāng)試驗(yàn)次數(shù)很大時所呈現(xiàn)的概率性質(zhì)的定律。
它與中心極限定理一起打下了數(shù)理統(tǒng)計(jì)的理論基礎(chǔ)。
在生活中的應(yīng)用:今天早上我取坐公交,我不知道公交待會什么時候來,但從過去的大量經(jīng)驗(yàn)來看,它會在7:40到站。這就利用了大數(shù)定律。
大數(shù)定律從長期來看,它使得頻率接近概率,并提供了理論基礎(chǔ)。
從短期來看的話,
4.請舉例說明數(shù)據(jù)庫的基本模型和模型之間的差別
立方體數(shù)據(jù)模型(cube)和星型數(shù)據(jù)模型都能組織數(shù)據(jù)倉庫的維和度數(shù)據(jù),為OLAP提供支持,但它們各有一定的局限性,在數(shù)據(jù)庫開發(fā)中應(yīng)該有機(jī)結(jié)合兩種數(shù)據(jù)模型,合理使用。 2.1 立方體數(shù)據(jù)模型和星型數(shù)據(jù)模型
**(1)立方體數(shù)據(jù)模型 ** 立方體模型是數(shù)據(jù)倉庫的基本結(jié)構(gòu)。在該模型中,一部分是數(shù)字測量值(如銷售量、投資額、收入等),它們依賴于一組維,而所有維提供了全部測量值的上下文關(guān)系。例如銷售量Q與銷售地區(qū)、銷售產(chǎn)品和銷售時間等有關(guān),這些相關(guān)的“維”惟一決定了銷售量Q這個測量值。因此,多數(shù)數(shù)據(jù)視圖就可以表示為在這些由不同層次的維構(gòu)成的多維空間中存放數(shù)字測量值。如圖1中的小立方體格(即cube單元格)內(nèi)存儲的數(shù)據(jù),就是可口可樂等產(chǎn)品的銷售量Q數(shù)據(jù)。
圖1表示了一個銷售立方體模型,圖中陰影部分就是2001年廣州市銷售可口可樂的銷售量Q。
**(2)星型數(shù)據(jù)模型 ** 大多數(shù)數(shù)據(jù)倉庫都采用“星型架構(gòu)”來表示多維概念模型。采用星型模型的數(shù)據(jù)庫中至少包括一張“事實(shí)表”。“事實(shí)表”中的每條記錄都包含有指向各個“維表”的外鍵和一些相應(yīng)的測量數(shù)據(jù),即數(shù)據(jù)值。對于每一維都有一張“維素”。“維表”中記錄的是有關(guān)這一維的屬性,如圖2所示。
圖2表示了銷售數(shù)據(jù)倉庫的星型數(shù)據(jù)模型,它包含4個維:地區(qū)維、時間維、產(chǎn)品維和部門維。它們各由相關(guān)的屬性組成,這些屬性有時也被認(rèn)為是維的層次。如圖3表示了銷售數(shù)據(jù)倉庫各個維的概念層次結(jié)構(gòu)。中間是事實(shí)表,它由各維度的主鍵和數(shù)據(jù)倉庫的度構(gòu)成。度數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù)。
在星型架構(gòu)中,將單維的維表與另一個維表聯(lián)接,這樣就構(gòu)成了關(guān)系數(shù)據(jù)庫中的多維分析空間。這些平面的表被疊加到一起,構(gòu)成了一個多維空間。疊加的核心是事實(shí)表。維表關(guān)鍵字是事實(shí)表關(guān)鍵字的一個組成部分,數(shù)據(jù)倉庫中的關(guān)鍵字應(yīng)使用系統(tǒng)生成的代理關(guān)鍵字,而不是直接使用操作型數(shù)據(jù)庫的關(guān)鍵字,這是由數(shù)據(jù)倉庫的穩(wěn)定性所決定的。雖然看起來使用操作環(huán)境的關(guān)鍵字作為數(shù)據(jù)倉庫的關(guān)鍵字顯得簡單、易懂,但實(shí)際上它會使數(shù)據(jù)倉庫管理復(fù)雜化。首先,操作環(huán)境里的關(guān)鍵字的任何變化都會導(dǎo)致數(shù)據(jù)倉庫里相應(yīng)的變化,這違反了數(shù)據(jù)倉庫穩(wěn)定的特性。同時,數(shù)據(jù)倉庫的擴(kuò)展,必須保證在不破壞關(guān)鍵字的前提下,來自其他系統(tǒng)的數(shù)據(jù)能夠順利合并到數(shù)據(jù)倉庫中去。
4.假如你租了個商鋪,如何預(yù)估商鋪的人流量以及銷售額
5.簡述有監(jiān)督分類學(xué)習(xí)和無監(jiān)督分類學(xué)習(xí)的差別,并舉出熟悉的模型。
6.根據(jù)客戶資料,劃分行業(yè)體系
7.梯度下降法的缺點(diǎn)
梯度有時候不好計(jì)算;
當(dāng)樣本數(shù)目很多時,訓(xùn)練過程會很慢;
準(zhǔn)確度下降,并不是全局最優(yōu);
不易于并行實(shí)現(xiàn)
8.用算法識別模仿應(yīng)用。
方法一:
一般而言,不少用戶在下載到模仿應(yīng)用以后會及時發(fā)現(xiàn)并且重新下載正確的應(yīng)用
首先將收集到的用戶下載應(yīng)用數(shù)據(jù),每一條記錄包含了同一個用戶對于應(yīng)用的下載行為
建立稀疏矩陣,各個字段即是各類應(yīng)用,被用戶下載記為1,否則記為0
計(jì)算各個應(yīng)用的下載的support,篩選出大于閾值的頻繁項(xiàng)集
對于頻繁項(xiàng)集,計(jì)算出各個子集之間彼此的confidence,篩選出大于閾值的關(guān)聯(lián)規(guī)則
當(dāng)關(guān)聯(lián)規(guī)則的應(yīng)用指向同一類應(yīng)用時,其中可能就包含了被模仿的應(yīng)用和模仿應(yīng)用
建立一個正常應(yīng)用的集合,若關(guān)聯(lián)規(guī)則中同時有屬于正常應(yīng)用和不屬于正常應(yīng)用的項(xiàng),那么這些不屬于正常應(yīng)用的部分可以被視為模仿應(yīng)用
方法二:聚成1類的里面有正常應(yīng)用和模仿的應(yīng)用,再用正常的集合去排除.
JD關(guān)于用戶行為的試題
請描述你所理解的黃牛,從什么角度識別黃牛用戶
黃牛的特征是集中在低價、熱銷商品上,大量下單,以至達(dá)到區(qū)域囤貨。
1.預(yù)約時間非常集中,以前是同一IP地址預(yù)約眾多賬號,現(xiàn)在是發(fā)動群里分布各地的網(wǎng)友預(yù)約,搶購成功后付傭金。
2.收貨地址集中。猜測是和本地快遞公司非常好的關(guān)系。如,深圳市華強(qiáng)北XX路X棟.1-100號都能收到貨。收貨人—黃XX 黃雷軍 黃X軍…(任意)收貨人電話,前幾位一致即可,后面幾位任意。
現(xiàn)在刷單橫行,請寫出你理解的刷單行為,以及從什么角度識別刷單。
1.預(yù)約時間非常集中,以前是同一IP地址預(yù)約眾多賬號,現(xiàn)在是發(fā)動群里分布各地的網(wǎng)友預(yù)約,搶購成功后付傭金。
2.收貨地址集中。猜測是和本地快遞公司非常好的關(guān)系。如,深圳市華強(qiáng)北XX路X棟.1-100號都能收到貨。收貨人—黃XX 黃雷軍 黃X軍…(任意)收貨人電話,前幾位一致即可,后面幾位任意。