數(shù)據(jù)分析工作案例: 用戶留存問題

互聯(lián)網(wǎng)數(shù)據(jù)分析中總是會(huì)遇到產(chǎn)品的留存率問題, 本案例就是一個(gè)實(shí)際工作中遇到的需求.

一. demand 業(yè)務(wù)需求

平臺(tái): Android
時(shí)間周期: 2015.12.25(3.8版本上線)至今
需求數(shù)據(jù): 每日的新增用戶數(shù)目, 次日留存, 第7日留存
需求解讀: 獲取安卓平臺(tái)上, 2015-12-25到現(xiàn)在的每一天的新增用戶數(shù), 次日留存和第七日留存率三項(xiàng)指標(biāo)

次日留存數(shù)計(jì)算方法: first_date = last_date-1
第七日留存數(shù)計(jì)算方法: first_date = last_date-6

二. raw data 輸入數(shù)據(jù)

1. 表名

mds_wls_sina_weather_activate_retain_user

2. 表的結(jié)構(gòu)與兩條樣例數(shù)據(jù)

處理
字段: NA pt_type NA uid last_date first_date time NA NA pv pid location ISP dt pt_type
記錄1 : weather activate 天氣通 %2BGSN%3A80869018 2014-11-15 2014-11-08 15:44:15 0 1 3.409 P2866 重慶 電信 20151225 activate
記錄2: weather activate 天氣通 %2BGSN%3A808AB4C6 2014-08-25 2014-07-27 10:02:25 tq 5010 3.329 - 四川 移通 20151225 activate

3 簡(jiǎn)化后的數(shù)據(jù)樣式

由于表的原始結(jié)構(gòu)存在一些噪音, 因此我們自己可以對(duì)其復(fù)制一部分的記錄, 然后加以簡(jiǎn)化, 以便自己思考sql語句的寫法.

-- 簡(jiǎn)化的行記錄
20151225(dt) 天氣通    %2BGSN%3A80869018(uid)  2015-12-25(last_date)   2015-12-25(first_date)  15:44:15    3.409(ver)  P2866(source)   重慶  電信  activate(type)  #第一次啟動(dòng)
20151226 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151227 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151228 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151229 天氣通    %2BGSN%3A80869018   2015-12-29  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate  #第二次啟動(dòng)

三. 知識(shí)點(diǎn)

  • date_add()函數(shù): date_add(first_date, 6) --給定的date加上一定的天數(shù)

  • case條件語句: sum(case when last_date = first_date then 1 else 0 end) as newuser --類似countif(last_date=first_date)

  • partition分區(qū): Hive中查找數(shù)據(jù)的時(shí)候, 要盡量利用分區(qū)來縮小范圍, 這樣大大提高了效率. 此處, 分區(qū)實(shí)際上是date, 因此最好一開始就把date給指定了

  • regexp_replace(string, str1, str2): regexp_replace(last_date,'-','') //使用str2替換string中的所有str1

  • 最重要的: sum函數(shù)的特性sum函數(shù)
    這個(gè)網(wǎng)頁中, 如果groupby Customer的話, 那就會(huì)出現(xiàn)針對(duì)Bush, Carter, Adams三個(gè)人的三條Sum(OrderPrice)結(jié)果.
    select custname, sum(orderDeal) from tb_bill group by custname

  • group by可以與聚合函數(shù)搭配, 也就是說前面如果有一個(gè)sum(OrderPrice) 或者 count(*)這樣的對(duì)數(shù)值加總的函數(shù)的話, 后面常常要帶group by.

四. 代碼

--七天留存
-- pt_type代表portal_type
-- pv代表portalVersion
-- pid: 渠道號(hào)
-- uid: userID
-- 本例子找出來的結(jié)果是求2015-12-25~2015-12-31這七天, 即2015-12-25新增用戶在2015-12-31當(dāng)天的留存數(shù)目
select first_date,pid,pv,count(1) uv from
(select first_date,pid,pv,uid from mds_wls_sina_weather_activate_retain_user
where dt = '20151231' and pt_type = 'activate'  
and  regexp_replace(last_date,'-','') = dt  -- last-date限定等于2015-12-31
and last_date = date_add(first_date,6)  --last-date同時(shí)限定等于first_data+6
and pid in ('x','y') 
and pv in ('x','y')
group by first_date,pid,pv,uid) as t1  --用first_date, pid, pv, uid字段全部上, 代表各個(gè)記錄不能重復(fù)。
group by first_date,pid,pv  -- 仍然表示去重

-- 2015-12-25以來指定渠道集合, 指定版本集合的2ndretain和7threttain
-- 記錄可能是同一個(gè)用戶1001在20151228為first_date, 之后一直用到了20160215, 之間20151228~20160215每天都作為last_date生成了七八十行的記錄
-- pt平臺(tái)

hive -e"select first_date, pid, pv,
sum(case when last_date = first_date then 1 else 0 end) as newuser,
sum(case when last_date = date_add(first_date,1) then 1 else 0 end) as 2nd_retain,
sum(case when last_date = date_add(first_date,6) then 1 else 0 end) as 7th_retain
from mds_wls_sina_weather_activate_retain_user
where dt between '20151225' and '20170205' and pt in ('1','5010')  -- 限定日期范圍
and pv in ('3.809','3.819','3.829','3.839','3.909','3.929','3.939','5.009','5.039','5.059','5.109','5.159','5.209','5.309')  --限定版本
and pid in ('s6001','s6008','s6000','s2007','s2012','s2010','s3016','s6005','s7340','s3015','p372','s2009','s3017','free','s6004','s6007','s2004','s6010','s6003','s3011','p303','p331','p400','s3014','s3013','s7261','p306','s2011','s6006','p858','s4000','s3012','s7021','s6002','p888')  -- 限定渠道
and pt_type = 'activate' and regexp_replace(last_date,'-','') = dt  -- 2/1 2/1 2/1 yes =>2/2 2/1 2/1 no ==> 2/3 2/1 2/1 no, 如果這里不做限制, 到時(shí)候算last_date=first_date 可能會(huì)有5個(gè)記錄, 那么這樣就會(huì)多加了不少了.
and first_date >= '2015-12-25'  -- first_date必須在指定日期12/25后
and (last_date = first_date or last_date = date_add(first_date,1) or last_date = date_add(first_date,6))  -- 限定滿足新用戶, 次日, 七日三個(gè)之一
group by first_date, pid, pv">cxl_08.txt  -- 對(duì)first_date, 渠道, 版本做去重, 準(zhǔn)備用于sum, 可以查詢上面Group By Customer的例子

--通過first_date, pid, pv確定一個(gè)獨(dú)特的來自某個(gè)渠道, 版本, 某天的新增用戶,以及它之后的表現(xiàn)

extra: 補(bǔ)充解釋

對(duì)regexp那行代碼含義的解釋:

20151225(dt) 天氣通    %2BGSN%3A80869018(uid)  2015-12-25(last_date)   2015-12-25(first_date)  15:44:15    3.409(ver)  P2866(source)   重慶  電信  activate(type)  #第一次啟動(dòng)
20151226 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151227 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151228 天氣通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate
20151229 天氣通    %2BGSN%3A80869018   2015-12-29  2015-12-25  15:44:15    3.409   P2866   重慶  電信  activate  #第二次啟動(dòng)

解釋: 如果group by first_date, pv, pid
那么就是如上5條記錄落入對(duì)2015-12-25, 3.409, P2866這個(gè)group by形成的獨(dú)特組合(我們稱作該組合, 其在最后的excel結(jié)果中是一條行記錄),
因此, sum(case when last_date = first_date then 1 else 0 end) as newuser這個(gè)語句, 對(duì)該組合來說, %2BGSN%3A80869018這個(gè)用戶會(huì)給這個(gè)值貢獻(xiàn)了4, 而不是正常情況該有的1(因?yàn)樗皇且粋€(gè)新增用戶).
所以, 我們必須加上regexp_replace(last_date,'-','') = dt這個(gè)限定條件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,983評(píng)論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,772評(píng)論 3 422
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,947評(píng)論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,201評(píng)論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,960評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,350評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,406評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,549評(píng)論 0 289
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,104評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,914評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,089評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,647評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,340評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,753評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,007評(píng)論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,834評(píng)論 3 395
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,106評(píng)論 2 375

推薦閱讀更多精彩內(nèi)容