我所理解的互聯網數據分析師

本文目錄:

數據分析師的工作內容
數據分析師的能力要求
數據分析與數據挖掘
數據分析師的困境
數據分析師的推薦資料
總結

數據分析師雖然是很多互聯網公司都設立的一個職位,但不同公司對這一職位的定位不同。即使是統一公司,在不同的團隊,數據分析師的職責,作用和地位也可能不一樣。本文從筆者自己的實際經歷出發,總結一下數據分析師工作的內容,要求,工具,技能等多個方面。由于經歷尚欠,文章內容難免疏漏,請多多包涵。也歡迎交流。

數據分析師的工作內容

從定位上來講,數據分析師是一個“業務支持”的工種。數據分析本身是通過數據,最終解決商業問題的過程。

按照支持的方向劃分,可以分為產品數據分析師,運營數據分析師。顧名思義,產品數據分析師側重于支持產品的分析工作,包括但不限于產品埋點梳理,產品功能分析,產品核心指標分析,產品用戶分析。運營分析師的工作主要包括運營策略評估,運營活動分析,日常經營分析,商業效果分析等。兩者的共同點是,都需要通過多種方法,從數據中發現當前業務中存在的問題和不足,提出改進策略推進落地,并評估策略或功能上線之后的效果。因此,他們的產出通常包括基本數據表格,線上數據報表,數據分析報告以及其他相關文檔(如埋點文檔,PPT報告等)。分析師的產出,既可以是交給產品經理,運營人員等業務方,也可以是上層領導。前者的情況下,分析師通常具有一定的主動權和話語權,而如果是后者,則可能相對被動一些(當然也需要具體情況具體分析)。但兩種情況下,數據分析師都是要幫助業務方從更深入的層面理解業務,洞察業務,發現新的增長點。

具體來講,數據分析師的工作內容有以下方面:

1.數據埋點的規劃,確認和梳理

無論是一個新的產品功能還是一個運營活動,上線之前必須要對埋點進行規劃,確保核心數據指標分的埋點上報邏輯是正確的。數據分析師需要和產品經理配合,共同做好埋點梳理,不能所有的點都埋,也不能漏掉核心的埋點,更不能等上線之后再補埋點。還需要清楚埋點的數據如何從對應的數據表中獲取,有沒有和現有埋點的沖突,不同版本之間埋點是否存在差異等。進一步的,可能會有一些埋點數據經常需要使用,而埋點的底層表通常數據量很大,直接取效率可能比較低,這時就可以考慮將我們所關心的數據做一個每日定時任務,每日生成一張表,供之后的分析使用。

2.數據指標體系的構建

指標是對一個業務場景的定義,需要有指標名稱和數值以及相應的算法,必要時還要給出SQL。指標體系是很多指標組成的一個統一整體,既相互獨立,有相互關聯。構建指標體系通??梢园凑罩笜思?維度集的思路來進行。指標集是圍繞核心指標的一系列指標,維度集包括時間維度和空間維度,如年月日周時分秒,全國區域省份城市等。維度集還可以包括業務細分的維度,如操作系統,新老用戶,支付方式等。數據分析師在日常工作中,需要梳理不同層級的指標體系,明確其計算邏輯,口徑和使用場景,確保能用最合適的指標為業務更好地服務。

3.業務日常分析與專題分析

這一部分和前一部分緊密相連。日常分析包括產品功能上線的收益分析,也包括關鍵指標的日常監控和異動分析。產品上線分析需要結合具體的功能進行。指標監控和異動分析則需要一定的經驗。常見的異動分析方法有維度拆解,漏斗分析,公式拆解,指標關聯分析等,有時也需要結合外部環境,運營事件等進行。前期可能需要進行一定的探索才能真正找到原因,業務成熟之后,這部分可以考慮上線成為歸因分析的系統,自動化定位原因,提高效率。這其實是一個“數據分析思維產品化”的過程,既能夠沉淀自己的方法論,也能夠通過產品化進行推廣,使更多的人受益。

專題分析是工作中價值輸出占比比較大的一部分。相比日常分析來講可能更綜合一些,但并沒有明確的界限。一般來講分為3個階段,6個步驟:

第一階段,問題識別與構建

  • Step1:識別問題
  • Step2:回顧之前的發現

第二階段,定位問題,并給出解決方案

  • Step3:建模(變量選擇)
  • Step4:收集數據
  • Step5:分析數據

第三階段,傳達結果并推動結果落地

  • Step6:傳達給相關方數據分析結果并采取行動

來源:https://mp.weixin.qq.com/s/1thDxXDo_9agUIjunaSD5g

4.數據報表的配置搭建

數據報表可能會有多種形式,如每日郵件,tableau,其他線上報表等。也可能具有不同的時間周期,如日報,周報,月報等。線上的報表通常以統計圖,統計表的形式呈現,日報周報除了基礎數據外,還需要有文字解讀,觀點建議等。線上報表配置時,通常需要依賴一定的調度任務(每天自動定時產出數據表,線上報表就是把這些表的數據直接或者間接呈現出來)。


image

數據分析師的能力要求

1.技能要求

必須指出,任何的技能,都只是工具,只要能達到最終的結果,無論用什么手段都可以,重要的是簡單高效熟悉。我們從數據獲取,數據預處理,數據分析,結果呈現等幾個方面分別來說明。

數據獲取:

  • SQL技能。我們在工作中的業務數據主要來源于自有的數據庫或者數據倉庫。這些數據大多是已經由數倉同學處理好的,結構化的,使用SQL(這里是一個廣義概念,實際中主要是Hive SQL)是一種最簡單有效的獲取數據的方式。SQL本身入門門檻低,上手快,專業性不是很強。多寫多練,就可以熟能生巧。但一定要注意SQL邏輯和口徑的準確性,這需要我們使用正確的表,準確的限定條件,以及根據經驗對取數結果進行判斷。還要注意SQL的執行效率。
  • python爬蟲。除了在數據庫中的數據,我們也常常需要從公司外部獲取數據,而python爬蟲是獲取互聯網數據的常見而有效的方式,因此掌握爬蟲技能十分重要和必要。爬蟲主要包括網頁獲取,網頁解析,數據存儲等步驟。python中主要涉及requests,lxml,BeautifulSoup,pyquery,pymysql,pymongo,selenium,scrapy等工具包。

數據預處理:

這一階段包含數據清洗和數據預處理兩個部分。數據清洗的環節目標是提高數據質量,為后續的分析工作奠定基礎,是高質量數據的最后一道屏障。數據質量的標準可以概括為“完全合一”(參考極客時間《數據分析實戰45講》課程)?!巴辍笔侵竿暾裕簲祿胁粦摯嬖诳罩?,空行等?!叭笔侵溉嫘裕褐饕竿涣袛祿瑔挝灰y一,定義要明確?!昂稀笔侵负戏ㄐ裕核袛祿娜≈祽撛诤侠矸秶鷥?,不能出現異常數據和非法字符等?!耙弧笔侵肝ㄒ恍裕和瑯拥臄祿荒艽嬖诙啻?。因此該階段可能的工作包括:數據格式的轉換,缺失值填充,重復值刪除,處理非法字符等。而數據預處理主要包括數據集成,數據變換等。數據集成是將不同來源的數據通過一定的手段整合在一起,工業級的數據集成需要用到專業的ETL工具。而數據變換主要指數據的歸一化,如Max-Min規范化,Z-score規范化等。以python為例,實際中進行數據清洗,數據集成會用到pandas,數據變換則使用sklearn工具包。

數據分析:

這一階段是數據分析工作的核心,也是最能體現數據分析師價值的地方,需要從“高質量”的數據出發,基于對業務場景的理解,從數據趨勢,數據分布,數據計算中總結出業務現狀,由此提出業務的改進建議。常見的數據分析方法有:象限法,公式拆解法,對比分析法,歸因分析,漏斗分析,留存分析,同期群分析,AB實驗等。

實際中,我們通常會使用一些可視化方式提高分析的效率??梢暬墓ぞ哂泻芏?,Excel是一種,簡便易用,適合大多數人。除此外還有Tableau,功能雖然更強大,但需要付費。python中也有很多的數據可視化工具包,例如matplotlib,seaborn,pyecharts,bokeh等。R也是數據可視化時經常會選擇的工具??梢暬某尸F常用的圖表有柱形圖,散點圖,折線圖,扇形圖,氣泡圖,雷達圖以及他們的變體和組合等。實現的方式并沒有優劣,只需要選擇自己擅長的,能達到結果就好。

結果呈現:

這里的結果包括分析報告的輸出和報表輸出。主要是指輸出的分析報告會有多種形式,可能是excel表格,可能是word文檔,大多數情況可能是PPT。無論哪種形式,既需要有文字結論,也需要輔之以圖表清楚地說明問題。因此要求比較熟練地使用office辦公套件。

數據報表的輸出通常需要對于基礎平臺有一定的了解,會使用Shell,SQL,HDFS,spark,數據倉庫等。要能夠處理異常情況,排查錯誤等,對于上線后出現的可能出現各種bug也需要能夠及時準確處理。

2.思維要求

這里主要是指對于業務的深入理解的同時,可以結合一些已有的經典模型和理論。例如AARRR模型,RFM模型,二八法則,魚骨圖,馬斯洛需求理論,生命周期理論等。這些經典的方法論能夠幫助我們尋找思路,也能夠幫助我們檢驗當前工作的完整性。這就需要一定的知識儲備,多多攝入一些經濟學,心理學,戰略管理等知識。

另外,數據分析師需要具備一定的數據敏感度。對于業務上或者行業內的數據,要有一定的預估判斷能力,把握一個大概的量級。對于一個數據的可信程度,能夠在第一時間做出判斷是數據分析師比較基礎的一個必備的能力。

前文中我們提到了“產品化”,這也是數據分析師在工作中需要經常總結和思考的。


image

數據分析與數據挖掘

廣義上的數據分析包括數據挖掘的內容,例如基于業務進行數據模型搭建。這里就會用到一些經典的數據挖掘算法,例如決策樹,樸素貝葉斯,邏輯回歸,K-Means。這部分的工作在數據分析師的日常中也會遇到,但可能只占一小部分,不同的公司和團隊也不同,需要看具體的情況。一般的業務分析可能用不到這些方法,但對其有一定的了解還是十分必要。不僅僅因為有時候數據分析師需要使用和產出這些模型,也可能需要對接算法工程師,因此了解常用的機器學習模型(分類,聚類,降維等),甚至深度學習的原理十分必要。個人認為,相比于算法工程師,數據分析師更貼近業務,代碼能力和工程能力要求不那么高。

數據分析師的困境

目前很多數據分析師的崗位,或多或少都會存在一個問題:Title是數據分析師,實際上卻是提數工程師。數據分析師在工作中缺少主動權和話語權,僅僅被當做是數據工具,這一點眼中違背了這個崗位原本的價值定位。改變這一現狀需要分析師提高自己的主動性,主動發現問題,主動提供自己的思考和建議,持續跟進分析結論和效果反饋,提高自己的“存在感”。改變這種現狀可能不是一個人能完成的,也不是一朝一夕的能做到的?;蛟S需要自上而下的推動,或許需要很久的摸索,但可以肯定的是,SQL boy的角色沒有真正發揮分析師的作用。這里推薦一位大佬(公眾號:木東居士)的文章,對這一困境進行了闡述。希望對大家有所啟發。數據分析師做成了提數工程師,該如何破局

image

數據分析師的推薦資料

  • 埋點和數據采集平臺:

    業界使用比較多的有:友盟,Google Analysis,百度統計,talking data,growing io等。

  • 書籍推薦:

    《誰說菜鳥不會數據分析》《深入淺出數據分析》《赤裸裸的統計學》《增長黑客》《精益數據分析》《運營之光》

  • 常用網站:

    數據分析網:https://www.afenxi.com/

    愛統計網:http://www.itongji.cn/

    人人都是產品經理:http://www.woshipm.com/

總結

任何一個崗位都有從入門到精通的一個過程,數據分析師也一樣。本文總結和數據分析師的日常工作內容和基本要求,注重廣度而非深度,也談到了該崗位定位的問題和存在的困境。實際工作中確實會遇到各種各樣的問題和挑戰,只有迎難而上,多多總結,保持思考,才能從容應對。祝大家工作順利,天天進步!

歡迎關注我的公眾號:超哥的雜貨鋪~


掃碼關注:超哥的雜貨鋪
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,461評論 6 532
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,538評論 3 417
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,423評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,991評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,761評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,207評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,268評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,419評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,959評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,653評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,901評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,678評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,978評論 2 374