數(shù)據(jù)分析過程:
1、以事實為基礎提出假設,界定問題
2、將問題細分,形成互不重疊的子問題
3、進行數(shù)據(jù)收集與分析,證實或者證偽假設的問題
4、提出方案,推進問題的解決
5、執(zhí)行方案,驗證數(shù)據(jù)分析。
數(shù)據(jù)的分類:
統(tǒng)計學上把數(shù)據(jù)分為三類,分類數(shù)據(jù),順序數(shù)據(jù),數(shù)值數(shù)據(jù)
分類型數(shù)據(jù):主要是對事物的類別進行描述,比如電商網(wǎng)站中的品類,社交系統(tǒng)中用戶的等級
順序型數(shù)據(jù):顧名思義,就是按照順序排列的數(shù)據(jù),這種數(shù)據(jù)也是文字的,如時間順序,空間順序,優(yōu)先等級
數(shù)值型數(shù)據(jù):最常見的數(shù)據(jù)類型,用數(shù)字或文字描述事物,是 數(shù)據(jù)分析的主要來源
數(shù)據(jù)分析的目的:
數(shù)據(jù)分析的目的就是把隱藏在一大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結出所研究對象的內(nèi)在規(guī)律。
數(shù)據(jù)分析的種類有三種:
1,描述性數(shù)據(jù)分析:常用對比分析法,平均分析法,交叉分析法。
平均分析法大致有三種類型:
算數(shù)平均數(shù):算數(shù)平均法和加權算術平均法簡單方便,容易受異常值影響。
幾何平均數(shù):主要用于 對比率,指數(shù)進行平均,用來計算平均發(fā)展速度,用來計算復利下的平均年利率,在變量可能為負數(shù)和零的時候,不能使用,當數(shù)據(jù)呈倍數(shù)關系或者不對稱分布時適用性強。
調(diào)和平均數(shù):也叫倒數(shù)平均數(shù),主要是用來解決無法掌握總體單位數(shù)的情況下,只有每組的變量值和相應的標志總量,而需要得到平均數(shù)的問題,通常在遇到需要計算平均速度,平均利潤,平均成本指標時使用,尤其是觀測值是階段性變異的資料。
2,探索性數(shù)據(jù)分析:相關分析法,因子分析法,回歸分析法
3,驗證性數(shù)據(jù)分析:同上
數(shù)據(jù)分析的作用:
主要三作用:現(xiàn)狀分析,原因分析,預測分析
數(shù)據(jù)分析操作過程:
1.明確目標:搜集和明確數(shù)據(jù)分析上下游需求,資源,能力和表達形式,時間節(jié)點等。
2.數(shù)據(jù)獲取:從數(shù)據(jù)庫,公開出版物,互聯(lián)網(wǎng),市場調(diào)查等方面搜集數(shù)據(jù)。
3.數(shù)據(jù)清洗:數(shù)據(jù)清洗,數(shù)據(jù)轉化,數(shù)據(jù)提取,數(shù)據(jù)計算,具體包括數(shù)據(jù)整理入庫,去除無效? 數(shù)據(jù),填充缺失信息,選擇變量
? ? 第一階段:預處理,數(shù)據(jù)導入,元數(shù)據(jù)分析,觀察數(shù)據(jù),一般來說100萬條以下用excel,單機大量? 100萬條以上MYSQL+Navicat,單機海量1000萬條以上,文本文件+python
? ? 第二階段:去除補齊有缺失的數(shù)據(jù)
? ? 第三階段:去除修改格式和內(nèi)容錯誤的數(shù)據(jù)
? ? 第四階段:去除不需要的數(shù)據(jù)
? ? 第五階段:去除不需要的數(shù)據(jù)
? ? 第六階段:關聯(lián)性驗證
4.數(shù)據(jù)整理:數(shù)據(jù)離散化,數(shù)據(jù)標準化,對數(shù)據(jù)進行重新編碼,對數(shù)據(jù)表進行統(tǒng)計計算,生成各級指標,主要的目的是將清洗后的數(shù)據(jù)進行統(tǒng)一格式,集中存儲。
5.數(shù)據(jù)分析:數(shù)據(jù)分析是將處理后的數(shù)據(jù)進行建模分析,描述分析,模型測試,價值提取,高層次的分析方法也叫數(shù)據(jù)挖掘,數(shù)據(jù)挖掘側重解決四類問題,分類,聚類,關聯(lián),預測
6.數(shù)據(jù)展現(xiàn):餅圖,柱狀圖,條形圖,折線圖,雷達圖等等
7.報告撰寫:將模型加載,對數(shù)據(jù)分析過程總結和呈現(xiàn)
數(shù)據(jù)分析報告邏輯
核心三要素是:邏輯框架、數(shù)據(jù)證明、洞察結論;
邏輯框架:結論先行,數(shù)據(jù)跟上,邏輯完善,備注其他;一般以總分總模式為主;
數(shù)據(jù)分析方法論:
事實上是使用常見的企業(yè)分析方法論,設計數(shù)據(jù)分析的維度和范圍,常用的方法包括
1、思考模型
5W+2H:為什么,什么目的,誰,那個領域,什么時候,怎么做
金字塔模型
魚骨圖模型
事實--解釋--行為
水平思考,事實,感情,批判,樂觀,創(chuàng)造,宏觀
2、戰(zhàn)略分析工具
戰(zhàn)略-3C 公司,對手,顧客
戰(zhàn)略規(guī)劃,橫軸表示競爭要素,縱軸表示競爭水平
對業(yè)務進行優(yōu)先排序,縱軸表示公司優(yōu)勢,橫軸表示市場價值
SWOT矩陣,優(yōu)勢,弱點,機會,危機
影響要素,五個力分析,供應鏈的變化,需求鏈變化,技術沖擊,新進入者,有無替代者
組織7S,保持戰(zhàn)略,共同價值,結構,體制,員工,技能,組織文化
3.市場營銷分析模型
市場4P,產(chǎn)品,價格,渠道,廣告
銷售漏斗模型
根據(jù)收入分類的家庭數(shù)量的相對度分布,
人口分布曲線,
意愿能力矩陣
用戶發(fā)布,技術革新者,有號召力的人,早期用戶,后期跟風,滯后采用的
服務營銷三角形,服務營銷的滲透的過程中,最初關注功能,然后轉移到渠道,最后由品牌影響力
PPM分析,縱軸表示成長率,市場占有率,分為,兒童業(yè)務,明星業(yè)務,瘦狗業(yè)務,現(xiàn)金牛
VRIO分析,價值,稀缺性,跟進難度,組織能力
4.常見管理模型
六西格瑪
PDCA循環(huán),計劃,實施,改善,驗證,
價值鏈,橫軸表示研究,開發(fā),采購,生產(chǎn),流通,銷售,售后,縱軸表示競爭對手
緊迫性和重要性的矩陣,重要性和緊迫性
5.數(shù)據(jù)挖掘模型
聚類:kmeans、系統(tǒng)層次聚類
分類:相似度計算、決策樹
回歸:邏輯回歸,線性回歸
降維:主成分分析、因子分析,對應分析/mds
文本挖掘:Word2vec、DOC2ver/LDA、文本相似度計算
時間序列等等