摘要:本次實戰題目和數據選取自公眾號“秦路”,是針對數據分析的招聘崗位的需求分析。數據抓取時間是2016.11月,抓取的是當時各大招聘網站有關數據分析的崗位數據。以下是個人的實操過程。
數據分析的大忌是不知道分析方向和目的,拿著一堆數據不知所措。一切數據分析都是以業務為核心目的的,以數據為目的的數據分析都是耍流氓~~
數據用來解決什么問題的:
比如說:
是進行匯總統計制作成報表?
是進行數據可視化,作為一張信息圖?
是驗證某一類業務假設?
是希望提高某一個指標的KPI?
......
PS:經過后面的思考,發現下圖中行業&公司一欄里的兩個問題其實是重復的,“什么行業”和“哪類公司”其實含義是一樣的。
補充一個問題:公司越大,對數據分析師的需求越大嗎?
數據的缺失值很大程度上會影響分析結果。引起缺失的原因有很多,例如技術,爬蟲沒有完全抓去,埋點沒有做好等等,例如本身的缺失,該崗位的HR沒有填寫(關于數據缺失處理,希望以后能寫一篇菜鳥學習文章出來)
一致化指的是數據是否有統一的標準或命名。例如上海市數據分析有限公司和上海數據分析有限公司,只差了一個字,但是對機器和程序而言,它們依舊會把它們認成是兩家。這會影響最后的計數、數據透視的結果。
臟數據是指分析過程中很討厭的環節。例如亂碼,錯位(),重復值,未匹配數據(數據不完整性),加密數據等。能影響到分析結果的都是臟數據,沒有一致化也可以算。
數據標準結構,就是將特殊結構的數據進行轉換和規整。
數據清洗
1、首先是清洗薪資。
溫馨小tips:excel如何批量自動填充單元格。
http://jingyan.baidu.com/article/546ae1853742b11149f28cb2.html
2、接下來把companyLabelList,businessZones,positionAdvantage進行分列。
可以看到companyLabelList標簽都是固定的內容,而positionLables、positionAdvantage、businessZones雖然也可用分列法做,但是這三個字段都是由HR自己填寫的,所以你會發現這會有各種不統一的描述。
這些自定義的內容,并沒有特別大的分析價值。
溫馨小tips:excel只替換某一列數據
http://jingyan.baidu.com/article/fcb5aff7aa222cedaa4a718e.html
總結篇
數據分析的思路:
一、明確數據分析的目的
二、觀察數據
? ? ? ? 1、了解數據背后的含義
? ? ? ? 2、看看這些數據之間有什么聯系
? ? ? ? 3、明確要保留/分析哪些數據
三、數據清洗
四、分析結論