本文目錄:
數據分析師的工作內容
數據分析師的能力要求
數據分析與數據挖掘
數據分析師的困境
數據分析師的推薦資料
總結
數據分析師雖然是很多互聯網公司都設立的一個職位,但不同公司對這一職位的定位不同。即使是統一公司,在不同的團隊,數據分析師的職責,作用和地位也可能不一樣。本文從筆者自己的實際經歷出發,總結一下數據分析師工作的內容,要求,工具,技能等多個方面。由于經歷尚欠,文章內容難免疏漏,請多多包涵。也歡迎交流。
數據分析師的工作內容
從定位上來講,數據分析師是一個“業務支持”的工種。數據分析本身是通過數據,最終解決商業問題的過程。
按照支持的方向劃分,可以分為產品數據分析師,運營數據分析師。顧名思義,產品數據分析師側重于支持產品的分析工作,包括但不限于產品埋點梳理,產品功能分析,產品核心指標分析,產品用戶分析。運營分析師的工作主要包括運營策略評估,運營活動分析,日常經營分析,商業效果分析等。兩者的共同點是,都需要通過多種方法,從數據中發現當前業務中存在的問題和不足,提出改進策略推進落地,并評估策略或功能上線之后的效果。因此,他們的產出通常包括基本數據表格,線上數據報表,數據分析報告以及其他相關文檔(如埋點文檔,PPT報告等)。分析師的產出,既可以是交給產品經理,運營人員等業務方,也可以是上層領導。前者的情況下,分析師通常具有一定的主動權和話語權,而如果是后者,則可能相對被動一些(當然也需要具體情況具體分析)。但兩種情況下,數據分析師都是要幫助業務方從更深入的層面理解業務,洞察業務,發現新的增長點。
具體來講,數據分析師的工作內容有以下方面:
1.數據埋點的規劃,確認和梳理
無論是一個新的產品功能還是一個運營活動,上線之前必須要對埋點進行規劃,確保核心數據指標分的埋點上報邏輯是正確的。數據分析師需要和產品經理配合,共同做好埋點梳理,不能所有的點都埋,也不能漏掉核心的埋點,更不能等上線之后再補埋點。還需要清楚埋點的數據如何從對應的數據表中獲取,有沒有和現有埋點的沖突,不同版本之間埋點是否存在差異等。進一步的,可能會有一些埋點數據經常需要使用,而埋點的底層表通常數據量很大,直接取效率可能比較低,這時就可以考慮將我們所關心的數據做一個每日定時任務,每日生成一張表,供之后的分析使用。
2.數據指標體系的構建
指標是對一個業務場景的定義,需要有指標名稱和數值以及相應的算法,必要時還要給出SQL。指標體系是很多指標組成的一個統一整體,既相互獨立,有相互關聯。構建指標體系通??梢园凑罩笜思?維度集的思路來進行。指標集是圍繞核心指標的一系列指標,維度集包括時間維度和空間維度,如年月日周時分秒,全國區域省份城市等。維度集還可以包括業務細分的維度,如操作系統,新老用戶,支付方式等。數據分析師在日常工作中,需要梳理不同層級的指標體系,明確其計算邏輯,口徑和使用場景,確保能用最合適的指標為業務更好地服務。
3.業務日常分析與專題分析
這一部分和前一部分緊密相連。日常分析包括產品功能上線的收益分析,也包括關鍵指標的日常監控和異動分析。產品上線分析需要結合具體的功能進行。指標監控和異動分析則需要一定的經驗。常見的異動分析方法有維度拆解,漏斗分析,公式拆解,指標關聯分析等,有時也需要結合外部環境,運營事件等進行。前期可能需要進行一定的探索才能真正找到原因,業務成熟之后,這部分可以考慮上線成為歸因分析的系統,自動化定位原因,提高效率。這其實是一個“數據分析思維產品化”的過程,既能夠沉淀自己的方法論,也能夠通過產品化進行推廣,使更多的人受益。
專題分析是工作中價值輸出占比比較大的一部分。相比日常分析來講可能更綜合一些,但并沒有明確的界限。一般來講分為3個階段,6個步驟:
第一階段,問題識別與構建
- Step1:識別問題
- Step2:回顧之前的發現
第二階段,定位問題,并給出解決方案
- Step3:建模(變量選擇)
- Step4:收集數據
- Step5:分析數據
第三階段,傳達結果并推動結果落地
- Step6:傳達給相關方數據分析結果并采取行動
4.數據報表的配置搭建
數據報表可能會有多種形式,如每日郵件,tableau,其他線上報表等。也可能具有不同的時間周期,如日報,周報,月報等。線上的報表通常以統計圖,統計表的形式呈現,日報周報除了基礎數據外,還需要有文字解讀,觀點建議等。線上報表配置時,通常需要依賴一定的調度任務(每天自動定時產出數據表,線上報表就是把這些表的數據直接或者間接呈現出來)。
數據分析師的能力要求
1.技能要求
必須指出,任何的技能,都只是工具,只要能達到最終的結果,無論用什么手段都可以,重要的是簡單高效熟悉。我們從數據獲取,數據預處理,數據分析,結果呈現等幾個方面分別來說明。
數據獲取:
- SQL技能。我們在工作中的業務數據主要來源于自有的數據庫或者數據倉庫。這些數據大多是已經由數倉同學處理好的,結構化的,使用SQL(這里是一個廣義概念,實際中主要是Hive SQL)是一種最簡單有效的獲取數據的方式。SQL本身入門門檻低,上手快,專業性不是很強。多寫多練,就可以熟能生巧。但一定要注意SQL邏輯和口徑的準確性,這需要我們使用正確的表,準確的限定條件,以及根據經驗對取數結果進行判斷。還要注意SQL的執行效率。
- python爬蟲。除了在數據庫中的數據,我們也常常需要從公司外部獲取數據,而python爬蟲是獲取互聯網數據的常見而有效的方式,因此掌握爬蟲技能十分重要和必要。爬蟲主要包括網頁獲取,網頁解析,數據存儲等步驟。python中主要涉及requests,lxml,BeautifulSoup,pyquery,pymysql,pymongo,selenium,scrapy等工具包。
數據預處理:
這一階段包含數據清洗和數據預處理兩個部分。數據清洗的環節目標是提高數據質量,為后續的分析工作奠定基礎,是高質量數據的最后一道屏障。數據質量的標準可以概括為“完全合一”(參考極客時間《數據分析實戰45講》課程)?!巴辍笔侵竿暾裕簲祿胁粦摯嬖诳罩?,空行等?!叭笔侵溉嫘裕褐饕竿涣袛祿瑔挝灰y一,定義要明確?!昂稀笔侵负戏ㄐ裕核袛祿娜≈祽撛诤侠矸秶鷥?,不能出現異常數據和非法字符等?!耙弧笔侵肝ㄒ恍裕和瑯拥臄祿荒艽嬖诙啻?。因此該階段可能的工作包括:數據格式的轉換,缺失值填充,重復值刪除,處理非法字符等。而數據預處理主要包括數據集成,數據變換等。數據集成是將不同來源的數據通過一定的手段整合在一起,工業級的數據集成需要用到專業的ETL工具。而數據變換主要指數據的歸一化,如Max-Min規范化,Z-score規范化等。以python為例,實際中進行數據清洗,數據集成會用到pandas,數據變換則使用sklearn工具包。
數據分析:
這一階段是數據分析工作的核心,也是最能體現數據分析師價值的地方,需要從“高質量”的數據出發,基于對業務場景的理解,從數據趨勢,數據分布,數據計算中總結出業務現狀,由此提出業務的改進建議。常見的數據分析方法有:象限法,公式拆解法,對比分析法,歸因分析,漏斗分析,留存分析,同期群分析,AB實驗等。
實際中,我們通常會使用一些可視化方式提高分析的效率??梢暬墓ぞ哂泻芏?,Excel是一種,簡便易用,適合大多數人。除此外還有Tableau,功能雖然更強大,但需要付費。python中也有很多的數據可視化工具包,例如matplotlib,seaborn,pyecharts,bokeh等。R也是數據可視化時經常會選擇的工具??梢暬某尸F常用的圖表有柱形圖,散點圖,折線圖,扇形圖,氣泡圖,雷達圖以及他們的變體和組合等。實現的方式并沒有優劣,只需要選擇自己擅長的,能達到結果就好。
結果呈現:
這里的結果包括分析報告的輸出和報表輸出。主要是指輸出的分析報告會有多種形式,可能是excel表格,可能是word文檔,大多數情況可能是PPT。無論哪種形式,既需要有文字結論,也需要輔之以圖表清楚地說明問題。因此要求比較熟練地使用office辦公套件。
數據報表的輸出通常需要對于基礎平臺有一定的了解,會使用Shell,SQL,HDFS,spark,數據倉庫等。要能夠處理異常情況,排查錯誤等,對于上線后出現的可能出現各種bug也需要能夠及時準確處理。
2.思維要求
這里主要是指對于業務的深入理解的同時,可以結合一些已有的經典模型和理論。例如AARRR模型,RFM模型,二八法則,魚骨圖,馬斯洛需求理論,生命周期理論等。這些經典的方法論能夠幫助我們尋找思路,也能夠幫助我們檢驗當前工作的完整性。這就需要一定的知識儲備,多多攝入一些經濟學,心理學,戰略管理等知識。
另外,數據分析師需要具備一定的數據敏感度。對于業務上或者行業內的數據,要有一定的預估判斷能力,把握一個大概的量級。對于一個數據的可信程度,能夠在第一時間做出判斷是數據分析師比較基礎的一個必備的能力。
前文中我們提到了“產品化”,這也是數據分析師在工作中需要經常總結和思考的。
數據分析與數據挖掘
廣義上的數據分析包括數據挖掘的內容,例如基于業務進行數據模型搭建。這里就會用到一些經典的數據挖掘算法,例如決策樹,樸素貝葉斯,邏輯回歸,K-Means。這部分的工作在數據分析師的日常中也會遇到,但可能只占一小部分,不同的公司和團隊也不同,需要看具體的情況。一般的業務分析可能用不到這些方法,但對其有一定的了解還是十分必要。不僅僅因為有時候數據分析師需要使用和產出這些模型,也可能需要對接算法工程師,因此了解常用的機器學習模型(分類,聚類,降維等),甚至深度學習的原理十分必要。個人認為,相比于算法工程師,數據分析師更貼近業務,代碼能力和工程能力要求不那么高。
數據分析師的困境
目前很多數據分析師的崗位,或多或少都會存在一個問題:Title是數據分析師,實際上卻是提數工程師。數據分析師在工作中缺少主動權和話語權,僅僅被當做是數據工具,這一點眼中違背了這個崗位原本的價值定位。改變這一現狀需要分析師提高自己的主動性,主動發現問題,主動提供自己的思考和建議,持續跟進分析結論和效果反饋,提高自己的“存在感”。改變這種現狀可能不是一個人能完成的,也不是一朝一夕的能做到的?;蛟S需要自上而下的推動,或許需要很久的摸索,但可以肯定的是,SQL boy的角色沒有真正發揮分析師的作用。這里推薦一位大佬(公眾號:木東居士)的文章,對這一困境進行了闡述。希望對大家有所啟發。數據分析師做成了提數工程師,該如何破局
數據分析師的推薦資料
-
埋點和數據采集平臺:
業界使用比較多的有:友盟,Google Analysis,百度統計,talking data,growing io等。
-
書籍推薦:
《誰說菜鳥不會數據分析》《深入淺出數據分析》《赤裸裸的統計學》《增長黑客》《精益數據分析》《運營之光》
-
常用網站:
數據分析網:https://www.afenxi.com/
人人都是產品經理:http://www.woshipm.com/
總結
任何一個崗位都有從入門到精通的一個過程,數據分析師也一樣。本文總結和數據分析師的日常工作內容和基本要求,注重廣度而非深度,也談到了該崗位定位的問題和存在的困境。實際工作中確實會遇到各種各樣的問題和挑戰,只有迎難而上,多多總結,保持思考,才能從容應對。祝大家工作順利,天天進步!
歡迎關注我的公眾號:超哥的雜貨鋪~