Excel數據分析實戰:數據分析崗位需求分析

摘要:本次實戰題目和數據選取自公眾號“秦路”,是針對數據分析的招聘崗位的需求分析。數據抓取時間是2016.11月,抓取的是當時各大招聘網站有關數據分析的崗位數據。以下是個人的實操過程。

目錄
1

數據分析的大忌是不知道分析方向和目的,拿著一堆數據不知所措。一切數據分析都是以業務為核心目的的,以數據為目的的數據分析都是耍流氓~~

數據用來解決什么問題的:

比如說:

是進行匯總統計制作成報表?

是進行數據可視化,作為一張信息圖?

是驗證某一類業務假設?

是希望提高某一個指標的KPI?

......

PS:經過后面的思考,發現下圖中行業&公司一欄里的兩個問題其實是重復的,“什么行業”和“哪類公司”其實含義是一樣的。

補充一個問題:公司越大,對數據分析師的需求越大嗎?

2

數據的缺失值很大程度上會影響分析結果。引起缺失的原因有很多,例如技術,爬蟲沒有完全抓去,埋點沒有做好等等,例如本身的缺失,該崗位的HR沒有填寫(關于數據缺失處理,希望以后能寫一篇菜鳥學習文章出來)

一致化指的是數據是否有統一的標準或命名。例如上海市數據分析有限公司和上海數據分析有限公司,只差了一個字,但是對機器和程序而言,它們依舊會把它們認成是兩家。這會影響最后的計數、數據透視的結果。


臟數據是指分析過程中很討厭的環節。例如亂碼,錯位(),重復值,未匹配數據(數據不完整性),加密數據等。能影響到分析結果的都是臟數據,沒有一致化也可以算。

數據標準結構,就是將特殊結構的數據進行轉換和規整。

數據清洗

1、首先是清洗薪資。

溫馨小tips:excel如何批量自動填充單元格。

http://jingyan.baidu.com/article/546ae1853742b11149f28cb2.html

2、接下來把companyLabelList,businessZones,positionAdvantage進行分列。

可以看到companyLabelList標簽都是固定的內容,而positionLables、positionAdvantage、businessZones雖然也可用分列法做,但是這三個字段都是由HR自己填寫的,所以你會發現這會有各種不統一的描述。

這些自定義的內容,并沒有特別大的分析價值。


溫馨小tips:excel只替換某一列數據

http://jingyan.baidu.com/article/fcb5aff7aa222cedaa4a718e.html


總結篇

數據分析的思路:

一、明確數據分析的目的

二、觀察數據

? ? ? ? 1、了解數據背后的含義

? ? ? ? 2、看看這些數據之間有什么聯系

? ? ? ? 3、明確要保留/分析哪些數據

三、數據清洗

四、分析結論

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容