今日頭條試題

1.你如何理解P值,它的限制是什么。

P值是指原假設(shè)為真時所得到的更極端結(jié)果出現(xiàn)的概率。如果P值很小,說明這種情況發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,我們就有理由拒絕原假設(shè),P值越小,我們拒絕原假設(shè)的理由就越充分。

舉個例子,原假設(shè)是總體均值=100。現(xiàn)在我們要用樣本去估計(jì)總體,樣本與總體是有很大差別的。那么用樣本去估計(jì)總體所得出的均值,能否用來證明這個原假設(shè)呢?

這時算出P=0.01,表示總體均值為100時,樣本均值不等于100的概率。P值很小,這種情況下發(fā)生的概率很小,可是卻出現(xiàn)了,所以我們可以拒絕原假設(shè)。即總體均值不是100。

邏輯再重述一下:在總體均值為100的情況下,樣本均值不等于100是幾乎不可能的,但是現(xiàn)在樣本均值就是不等于100,所以那個假設(shè)被推翻了。

分析問題時我們一般會用P值與顯著性水平比較,一般取顯著性水平為0.05。
顯著性水平時指原假設(shè)為真時卻被拒絕的概率。

黑體字,其實(shí)效果都是等同的,更極端結(jié)果=不等于100=被拒絕。而我們所說的
α錯誤就是顯著性水平,即棄真錯誤。

P值的大小取決于三個因素,因?yàn)樗怯脕砗饬繕颖竟烙?jì)總體的效果,那么這三個因素也就不難理解了:
1.樣本數(shù)據(jù)與總體的差異。
2.樣本量
3.參數(shù)是否服從均勻分布的程度。

2.如何判斷一個硬幣是否均勻?請描述實(shí)驗(yàn)設(shè)計(jì)、建模、統(tǒng)計(jì)指標(biāo)和分析過程。

實(shí)驗(yàn)流程:做獨(dú)立重復(fù)實(shí)驗(yàn)1000次,投遞硬幣,記錄下來正反硬幣出現(xiàn)的次數(shù)、并計(jì)算正面出現(xiàn)的頻率。

建模:做一個假設(shè)檢驗(yàn),H0:正面出現(xiàn)的概率為0.5 ;H1:正面出現(xiàn)的概率不是0.5

統(tǒng)計(jì)指標(biāo):正面出現(xiàn)的頻率,并構(gòu)建Z統(tǒng)計(jì)量來做顯著性檢驗(yàn)。

分析過程:如果正面出現(xiàn)的頻率不是0.5而且計(jì)算的Z統(tǒng)計(jì)量小于0.01的顯著性水平,則我們有足夠的理由推翻原假設(shè)即該硬幣不均勻。

3大數(shù)定律在生活中的應(yīng)用,并從短期和長期的角度看待這個事情.

大數(shù)定律(law of large numbers),又稱大數(shù)定理,是一種描述當(dāng)試驗(yàn)次數(shù)很大時所呈現(xiàn)的概率性質(zhì)的定律。
它與中心極限定理一起打下了數(shù)理統(tǒng)計(jì)的理論基礎(chǔ)。

在生活中的應(yīng)用:今天早上我取坐公交,我不知道公交待會什么時候來,但從過去的大量經(jīng)驗(yàn)來看,它會在7:40到站。這就利用了大數(shù)定律。

大數(shù)定律從長期來看,它使得頻率接近概率,并提供了理論基礎(chǔ)。
從短期來看的話,

4.請舉例說明數(shù)據(jù)庫的基本模型和模型之間的差別

立方體數(shù)據(jù)模型(cube)和星型數(shù)據(jù)模型都能組織數(shù)據(jù)倉庫的維和度數(shù)據(jù),為OLAP提供支持,但它們各有一定的局限性,在數(shù)據(jù)庫開發(fā)中應(yīng)該有機(jī)結(jié)合兩種數(shù)據(jù)模型,合理使用。 2.1 立方體數(shù)據(jù)模型和星型數(shù)據(jù)模型

**(1)立方體數(shù)據(jù)模型 ** 立方體模型是數(shù)據(jù)倉庫的基本結(jié)構(gòu)。在該模型中,一部分是數(shù)字測量值(如銷售量、投資額、收入等),它們依賴于一組維,而所有維提供了全部測量值的上下文關(guān)系。例如銷售量Q與銷售地區(qū)、銷售產(chǎn)品和銷售時間等有關(guān),這些相關(guān)的“維”惟一決定了銷售量Q這個測量值。因此,多數(shù)數(shù)據(jù)視圖就可以表示為在這些由不同層次的維構(gòu)成的多維空間中存放數(shù)字測量值。如圖1中的小立方體格(即cube單元格)內(nèi)存儲的數(shù)據(jù),就是可口可樂等產(chǎn)品的銷售量Q數(shù)據(jù)。


圖1 一個銷售立方體數(shù)據(jù)模型

圖1表示了一個銷售立方體模型,圖中陰影部分就是2001年廣州市銷售可口可樂的銷售量Q。

**(2)星型數(shù)據(jù)模型 ** 大多數(shù)數(shù)據(jù)倉庫都采用“星型架構(gòu)”來表示多維概念模型。采用星型模型的數(shù)據(jù)庫中至少包括一張“事實(shí)表”。“事實(shí)表”中的每條記錄都包含有指向各個“維表”的外鍵和一些相應(yīng)的測量數(shù)據(jù),即數(shù)據(jù)值。對于每一維都有一張“維素”。“維表”中記錄的是有關(guān)這一維的屬性,如圖2所示。

圖2 銷售數(shù)據(jù)倉庫的星型數(shù)據(jù)模型

圖2表示了銷售數(shù)據(jù)倉庫的星型數(shù)據(jù)模型,它包含4個維:地區(qū)維、時間維、產(chǎn)品維和部門維。它們各由相關(guān)的屬性組成,這些屬性有時也被認(rèn)為是維的層次。如圖3表示了銷售數(shù)據(jù)倉庫各個維的概念層次結(jié)構(gòu)。中間是事實(shí)表,它由各維度的主鍵和數(shù)據(jù)倉庫的度構(gòu)成。度數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維護(hù)。


圖3 銷售數(shù)據(jù)倉庫中各個維的概念層次結(jié)構(gòu)

在星型架構(gòu)中,將單維的維表與另一個維表聯(lián)接,這樣就構(gòu)成了關(guān)系數(shù)據(jù)庫中的多維分析空間。這些平面的表被疊加到一起,構(gòu)成了一個多維空間。疊加的核心是事實(shí)表。維表關(guān)鍵字是事實(shí)表關(guān)鍵字的一個組成部分,數(shù)據(jù)倉庫中的關(guān)鍵字應(yīng)使用系統(tǒng)生成的代理關(guān)鍵字,而不是直接使用操作型數(shù)據(jù)庫的關(guān)鍵字,這是由數(shù)據(jù)倉庫的穩(wěn)定性所決定的。雖然看起來使用操作環(huán)境的關(guān)鍵字作為數(shù)據(jù)倉庫的關(guān)鍵字顯得簡單、易懂,但實(shí)際上它會使數(shù)據(jù)倉庫管理復(fù)雜化。首先,操作環(huán)境里的關(guān)鍵字的任何變化都會導(dǎo)致數(shù)據(jù)倉庫里相應(yīng)的變化,這違反了數(shù)據(jù)倉庫穩(wěn)定的特性。同時,數(shù)據(jù)倉庫的擴(kuò)展,必須保證在不破壞關(guān)鍵字的前提下,來自其他系統(tǒng)的數(shù)據(jù)能夠順利合并到數(shù)據(jù)倉庫中去。

4.假如你租了個商鋪,如何預(yù)估商鋪的人流量以及銷售額

5.簡述有監(jiān)督分類學(xué)習(xí)和無監(jiān)督分類學(xué)習(xí)的差別,并舉出熟悉的模型。

6.根據(jù)客戶資料,劃分行業(yè)體系

7.梯度下降法的缺點(diǎn)

梯度有時候不好計(jì)算;
當(dāng)樣本數(shù)目很多時,訓(xùn)練過程會很慢;
準(zhǔn)確度下降,并不是全局最優(yōu);
不易于并行實(shí)現(xiàn)

8.用算法識別模仿應(yīng)用。

題目如圖

方法一:
一般而言,不少用戶在下載到模仿應(yīng)用以后會及時發(fā)現(xiàn)并且重新下載正確的應(yīng)用
首先將收集到的用戶下載應(yīng)用數(shù)據(jù),每一條記錄包含了同一個用戶對于應(yīng)用的下載行為
建立稀疏矩陣,各個字段即是各類應(yīng)用,被用戶下載記為1,否則記為0
計(jì)算各個應(yīng)用的下載的support,篩選出大于閾值的頻繁項(xiàng)集
對于頻繁項(xiàng)集,計(jì)算出各個子集之間彼此的confidence,篩選出大于閾值的關(guān)聯(lián)規(guī)則
當(dāng)關(guān)聯(lián)規(guī)則的應(yīng)用指向同一類應(yīng)用時,其中可能就包含了被模仿的應(yīng)用和模仿應(yīng)用
建立一個正常應(yīng)用的集合,若關(guān)聯(lián)規(guī)則中同時有屬于正常應(yīng)用和不屬于正常應(yīng)用的項(xiàng),那么這些不屬于正常應(yīng)用的部分可以被視為模仿應(yīng)用

方法二:聚成1類的里面有正常應(yīng)用和模仿的應(yīng)用,再用正常的集合去排除.


JD關(guān)于用戶行為的試題

請描述你所理解的黃牛,從什么角度識別黃牛用戶

黃牛的特征是集中在低價、熱銷商品上,大量下單,以至達(dá)到區(qū)域囤貨。
1.預(yù)約時間非常集中,以前是同一IP地址預(yù)約眾多賬號,現(xiàn)在是發(fā)動群里分布各地的網(wǎng)友預(yù)約,搶購成功后付傭金。

2.收貨地址集中。猜測是和本地快遞公司非常好的關(guān)系。如,深圳市華強(qiáng)北XX路X棟.1-100號都能收到貨。收貨人—黃XX 黃雷軍 黃X軍…(任意)收貨人電話,前幾位一致即可,后面幾位任意。

現(xiàn)在刷單橫行,請寫出你理解的刷單行為,以及從什么角度識別刷單。

1.預(yù)約時間非常集中,以前是同一IP地址預(yù)約眾多賬號,現(xiàn)在是發(fā)動群里分布各地的網(wǎng)友預(yù)約,搶購成功后付傭金。

2.收貨地址集中。猜測是和本地快遞公司非常好的關(guān)系。如,深圳市華強(qiáng)北XX路X棟.1-100號都能收到貨。收貨人—黃XX 黃雷軍 黃X軍…(任意)收貨人電話,前幾位一致即可,后面幾位任意。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,836評論 6 540
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,275評論 3 428
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,904評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,633評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,368評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,736評論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,740評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,919評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,481評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,235評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,427評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,968評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,656評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,055評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,348評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,160評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,380評論 2 379

推薦閱讀更多精彩內(nèi)容