《七周成為數(shù)據(jù)分析師》萬字總結(jié)與延伸

無小意
個人博客:無小意
知乎主頁:無小意丶
公眾號: 數(shù)據(jù)路(shuju_lu)

百日計劃第一周總結(jié)

1. 計劃

1.徹底結(jié)束之前預(yù)定暑假完成的天善學(xué)院課程《七周數(shù)據(jù)分析師》

2.總結(jié)《七周數(shù)據(jù)分析師》。

2. 完成情況

1.完成《七周成為數(shù)據(jù)分析師》任務(wù)

2.周總結(jié)與《七周數(shù)據(jù)分析師》一起完成。

《七周數(shù)據(jù)分析師》總結(jié)

本文是通過對秦路的課程七周成為數(shù)據(jù)分析師進行整體總結(jié)與補充。

可以通過本文,對數(shù)據(jù)分析師這個職業(yè)有個基本的了解

課程詳細資料請自行查詢。

第一周:數(shù)據(jù)分析思維

1.核心數(shù)據(jù)分析思維

  1. 結(jié)構(gòu)化
  2. 公式化
  3. 業(yè)務(wù)化

2.數(shù)據(jù)分析思維七大技巧

  1. 象限法
  2. 多維法
  3. 假設(shè)法
  4. 指數(shù)法
  5. 80/20法則(帕累托法則)
  6. 對比法
  7. 漏斗法

3.數(shù)據(jù)分析思維鍛煉方法

  1. 好奇心!
  2. 案例分析
    • 啤酒與尿布
    • 去思考生活中商業(yè)案例的表現(xiàn),背后的原理、擺放方法和數(shù)據(jù)差異
  3. 生活中的練習(xí)
    • 例如夜市,一天的人流量?一人的流量?營業(yè)額?數(shù)據(jù)的分析方式?
    • 換做你是商家,如何提高店面的利潤?
  4. 工作中的練習(xí)
    • 為什么領(lǐng)導(dǎo)和同事不認可?
    • 如果我職位更高,我會怎么分析?
    • 復(fù)盤,對于一個月,一年前等等的案例進行對比。需要,每個案例有記筆記的習(xí)慣,效果更好
    • 歷史分析,用這三種分析思維,分析更多的事情。結(jié)構(gòu)化,公式化,業(yè)務(wù)化。

4.總結(jié)

  1. 核心思維為重點!結(jié)合案例理解了,這三種思維的重要性,運用范圍極廣,對于問題的思考都可以從這三方面開展。
  2. 七大技巧,展示了具體的分析技巧,但是需要配合分析工具如Python、excel中去實現(xiàn)他,需要記住特點,在需要時運用到數(shù)據(jù)分析中
  3. 數(shù)據(jù)分析思維的鍛煉,來自于長期的思考習(xí)慣,從生活、案例和工作中日積月累的思考與積累,通過自己真正“思考”出來的結(jié)果,才是“真正”理解的思維。

第二周:業(yè)務(wù)篇-指標(biāo)

1.為什么業(yè)務(wù)重要

唯有理解業(yè)務(wù),才能建立完整的一套體系,簡稱業(yè)務(wù)數(shù)據(jù)模型。

想進入某個行業(yè)的數(shù)據(jù)分析,盡量需要一些業(yè)務(wù)知識,敲門磚。

2.經(jīng)典的業(yè)務(wù)分析指標(biāo)

模型未動,指標(biāo)先行。

如果你不能衡量它,你就不能無法增長它

運用第一周的核心思維:結(jié)構(gòu)化、公式化和業(yè)務(wù)化,形成指標(biāo)。

image

指標(biāo)建立的要點:

  1. 核心指標(biāo)(公司和部門都認同的大目標(biāo),根據(jù)實際公司情況而認定)
  2. 好的指標(biāo)應(yīng)該是比率
  3. 好的指標(biāo)能帶來顯著效果
  4. 好的指標(biāo)不應(yīng)該虛榮(如投入的錢很多,新增用戶量大)
  5. 好的指標(biāo)不應(yīng)該復(fù)雜

3.市場營銷指標(biāo)

市場營銷領(lǐng)域:

1.客戶/用戶生命周期

  • 企業(yè)/產(chǎn)品和消費者再整個業(yè)務(wù)關(guān)系階段的周期。
  • 不同業(yè)務(wù)劃分的階段不同。傳統(tǒng)營銷中,分為潛在用戶,興趣用戶,新客戶,老客戶,流失客戶。

2.用戶價值

  • 業(yè)務(wù)領(lǐng)域千千萬萬,怎樣定義最有效用戶?
  • 用戶貢獻=產(chǎn)出量/投入量*100%
  • 用戶價值=貢獻1+貢獻2+...
  • 金融行業(yè)的用戶價值,大概可以為存款+貸款+信用卡+年費+...-風(fēng)險
  • RFM模型
  • 具體看業(yè)務(wù)背景,確立RFM模型中的重心,進行更改和修正。
  • 用戶分群,營銷矩陣
  • 提取用戶的幾個核心維度,例如RFM,用象限法將其歸納和分類
image

3. 產(chǎn)品運營指標(biāo)

AARRR框架

用戶獲取,用戶活躍,用戶留存,營收,傳播

1.用戶獲取

  • 渠道到達量:俗稱曝光量。有多少人看到產(chǎn)品推廣相關(guān)的線索。
  • 渠道轉(zhuǎn)換率:有多少用戶因為曝光而心動Cost Per,包含CPM、CPC、CPS、CPD和CPT等。
  • 渠道ROI:推廣營銷的熟悉KPI,投資回報率,利潤/投資* 100
  • 日應(yīng)用下載量:App的下載量,這里指點擊下載,不代表下載完成。
  • 日新增用戶數(shù):以用戶注冊提交資料為基準(zhǔn)
  • 獲客成本:為獲取一位用戶需要支付的成本
  • 一次會話用戶數(shù)占比:指新用戶下載完App,僅打開過產(chǎn)品一次,且該次使用時長在2分鐘以內(nèi)。(衡量渠道可靠程度)

2.用戶活躍

  • 日/周/月活躍用戶應(yīng)用下載量:活躍標(biāo)準(zhǔn)是用戶用過的產(chǎn)品,廣義上,網(wǎng)頁游覽內(nèi)容算用,公眾號下單算用,不限于打開APP。
  • 活躍用戶占比:活躍用戶數(shù)再總用戶數(shù)的比例,衡量的是產(chǎn)品健康程度
  • 用戶會話session次數(shù):用戶打開產(chǎn)品操作和使用,直到推出產(chǎn)品的整個周期。5分鐘無操作,默認結(jié)束
  • 用戶訪問時長:一次會話的持續(xù)時間。
  • 用戶平均訪問次數(shù):一段時間內(nèi)的用戶平均產(chǎn)生會話次數(shù)。

3.用戶留存

用戶在某段時間內(nèi)使用產(chǎn)品,過了一段時間后仍舊繼續(xù)使用的用戶。

4.營收

  • 付費用戶數(shù):花了錢的
  • 付費用戶數(shù)占比:每日付費用戶占活躍用戶數(shù)比,也可以計算總付費用戶占總用戶數(shù)比
  • ARPU:某個時間段內(nèi),每位用戶平均收入
  • ARPPU:某時間段內(nèi)每位付費用戶平均收入,排除了未付費。
  • 客單價:每一位用戶平均購買商品的金額。銷量總額/顧客總數(shù)
  • LTV:用戶生命價值周期,和市場營銷的客戶價值接近,經(jīng)常用在游戲運營電商運營中。
  • LTV(經(jīng)驗公式):ARPU*1/流失率(比如說,一月份有一百個用戶,這個月用戶流失率0.3,那么1/流失率=3.3,那么一月份這批客戶在3.3個月后流失光,這段時間的LTV=ARPU(用戶的平均消費100元) *3.3 =330元),適合敏捷項目

5.傳播

  • K因子:每一個用戶能夠帶來幾個新用戶
  • K因子=用戶數(shù)平均邀請人=人數(shù)邀請轉(zhuǎn)換率
  • 用戶分享率:某功能/界面中,分享用戶數(shù)占游覽頁面人數(shù)占比
  • 活動/邀請曝光量:線上傳播活動中,該活動被曝光的次數(shù)

4. 用戶行為指標(biāo)

1.用戶行為

  • 沒有特別重要的框架,主要在于理解與應(yīng)用。
  • 功能使用率:使用某功能的用戶占活動總活躍數(shù)之比。(比如點贊、評論、收藏、搜索等等)
  • 用戶會話:會話(session),是用戶在一次訪問過程中,從開始到結(jié)束的整個過程。在網(wǎng)頁端,30分鐘內(nèi)沒有操作,默認會話操作結(jié)束

2.用戶路徑

路徑圖:用戶在一次會話的過程中,其訪問產(chǎn)品內(nèi)部的游覽軌跡,通過此,可以加工出關(guān)鍵路徑轉(zhuǎn)換率。

image

全產(chǎn)品路徑如上,但是關(guān)注關(guān)鍵路徑才重要。比如下單的路徑,觀察各個路徑的情況,進行優(yōu)化。

5.電子商務(wù)指標(biāo)

購物籃分析

  • 筆單價:用戶每次購買支付的金額,即每筆訂單的支出,對應(yīng)客單價
  • 件單價:商品的平均價格
  • 成交率:支付成功的用戶在總的客流量中的占比
  • 購物籃系數(shù):平均每筆訂單中,賣出了多少商品,與商品關(guān)聯(lián)規(guī)則有關(guān)。
  • 復(fù)購率:一段時間內(nèi)多次消費的用戶占到總消費用戶數(shù)之比(忠誠度)
  • 回購率:一段時間內(nèi)消費過的用戶,在下一段時間內(nèi)仍然有消費行為的占比(消費欲望)

6. 流量指標(biāo)

1.游覽量和訪客量

  • PV:游覽次數(shù)。以發(fā)起請求次數(shù)來判定

  • UV:一定時間內(nèi)訪問網(wǎng)頁的人數(shù),UV會通過cookie或IP的訪問次數(shù)來判定次數(shù)

    ? 微信中的網(wǎng)頁,UV是不準(zhǔn)確的,微信不會保存cookies。

2.訪客行為

  • 新老客戶占比:衡量網(wǎng)站的生命力(適宜就好,過高過低就不行)
  • 訪客時間:衡量內(nèi)容質(zhì)量,不是看內(nèi)容的UV,而是內(nèi)容的訪問時間。
  • 訪客平均訪問頁數(shù):衡量網(wǎng)站對訪客的吸引力,是訪問的深度
  • 來源:與多維分析相關(guān),訪客從哪里來,游覽方式?手機機型?通過來源網(wǎng)站的參數(shù)提取。
  • 退出率:從該頁退出的頁面訪問數(shù)/進入該頁的訪問數(shù)(衡量網(wǎng)頁產(chǎn)品結(jié)構(gòu))
  • 跳出率:游覽單頁即退出的次數(shù)/訪問次數(shù)(衡量落地頁、營銷頁)

7.怎么生存指標(biāo)

組合

  • 訪客訪問時長+UV=重度訪問用戶占比(游覽時間五分鐘以上的用戶占比)
  • 用戶會話次數(shù)+成交率=有效消費會話占比(用戶在所有的會話中,其中有多少次有消費?)
  • 機器學(xué)習(xí),PCA學(xué)習(xí),指數(shù)法,生成指標(biāo)。(偏應(yīng)用)

8.總結(jié)

  1. 通過三大核心思維,分解-理解-尋找,得到重要的指標(biāo)。
  2. 根據(jù)不同行業(yè),運用不同合適的模型
  3. 公司在不同時期、階段和模式都有不同的指標(biāo),需要有根據(jù)目的,從更高層次去尋找有效的指標(biāo)。

第二周:業(yè)務(wù)篇-框架與模型

1.業(yè)務(wù)的分析框架

  • 從第一周數(shù)據(jù)分析思維,核心技巧,工具,都為了這部分做鋪墊。
  • 讓指標(biāo)形成閉環(huán),成為真正靠譜的模型

從三個角度出發(fā)

  • 從指標(biāo)的角度出發(fā)
  • 從業(yè)務(wù)的角度出發(fā)
  • 從流程的角度出發(fā)

2.市場營銷模型

image

本質(zhì)是樹形結(jié)構(gòu),從樹形思維導(dǎo)圖演變而來,但是加入閉環(huán)的循環(huán)結(jié)構(gòu)。

3.AARRR模型

image
  • 核心是形成閉環(huán)。
  • 例子:餓了嗎紅包。
  • 二次激活:推送激活率、有效推送到達率、用戶打開率、不用推送的轉(zhuǎn)化率(可以使用漏斗圖)

4.用戶行為模型(內(nèi)容平臺)

image
  • 例如,知乎。完整閉環(huán),各個環(huán)節(jié)都能進行分析
  • 點贊/評論/收藏分析:點贊/評論/收藏用戶活躍占比、內(nèi)容指數(shù)等等

5.電子商務(wù)模型

image

遇到結(jié)構(gòu)外的分析內(nèi)容,在外面額外添加就行,如右上角。

分析各個節(jié)點,得到指標(biāo)。例如,購物車分析:

  • 不用商品類別的占比(對比法)
  • 不同價格檔次的占比(象限法)
  • 不同商品的下單支付率(漏斗法)

6.流量模型

image

指標(biāo)結(jié)構(gòu)框架如上,分析各個要點。

分析搜索流量:

image

有些指標(biāo)在其他模型也有,模型之間沒有嚴格界限,可以共同使用相同指標(biāo)

怎么從空白數(shù)據(jù)分析需求開始?

  1. 設(shè)立核心指標(biāo)
  2. 經(jīng)過三種核心思維
  3. 聚合成樹形圖
  4. 形成大量指標(biāo)
  5. 將指標(biāo)變成分析框架,閉環(huán)模型圖,例如上面案例
  6. 每個節(jié)點都能分析,利用上周的七大分析工具。

7.如何應(yīng)對各類業(yè)務(wù)場景

新手,面對數(shù)據(jù)分析依然是沒有思路進行分析?

  1. 練習(xí)

    重點,在于練習(xí)。參考上面,如何鍛煉數(shù)據(jù)分析思維。

    例如,出門的夜市商鋪、京東的電商產(chǎn)品框架、閱讀資訊軟件。

  2. 熟悉業(yè)務(wù)

    從熟悉的入手培養(yǎng)業(yè)務(wù)sense

  3. 應(yīng)用三種核心思維

    打開Xmind思維導(dǎo)圖,開始畫畫。

  4. 歸納和整理出指標(biāo)

    對于基本完整的思維導(dǎo)圖,提煉出,復(fù)購率、活躍度和用戶行為等等基本指標(biāo)結(jié)合。

  5. 畫出框架

    PPT,等等其他軟件。

  6. 檢查、應(yīng)用、修正

    沒有框架是完美的,在時間維度上需要檢查。

  7. 應(yīng)用和迭代

    在工作中應(yīng)用,先從小問題開始,再把各個小問題組合成大問題。

8.如何應(yīng)對業(yè)務(wù)場景(實踐測試)

image

以科賽數(shù)據(jù)分析平臺為例子,參考視頻,設(shè)計了一個分析體系。

9. 數(shù)據(jù)管理

  • 30%數(shù)據(jù)統(tǒng)計,70%數(shù)據(jù)管理
  • 數(shù)據(jù)管理,重中之重。一直銘記,以后一定會在數(shù)據(jù)這條路上走的更遠。

10.總結(jié)

  1. 框架,在某種程度上,是思維之下最高的體現(xiàn)。
  2. 框架盡量先形成閉環(huán)(樹形圖為核心),再逐點分析突破
  3. 通過設(shè)計框架,運用合適的指標(biāo),形成模型,實現(xiàn)最終的業(yè)務(wù)目標(biāo)。

第三周:Excel篇

Excel常用于敏捷,快速,需要短時間相應(yīng)的場景下是非常便捷的數(shù)據(jù)處理工具。

相對于語言類例如python和R等則用于常規(guī)的,規(guī)律的場景中應(yīng)用,便于形成日常規(guī)則統(tǒng)計分析。

對于學(xué)習(xí)的路徑:Excel函數(shù)--->SQL函數(shù)------>python

必知必會內(nèi)容:保證使用版本是2013+;培養(yǎng)好的數(shù)據(jù)表格習(xí)慣;主動性的搜索;多練習(xí)

Excel常見函數(shù)

1.文本函數(shù)

  • 查找文本位置:find(“字符”,位置),常與left()提取所需要的位數(shù)組合使用。
  • 文本拼接函數(shù):concatenate
  • 文本替換函數(shù):replace
  • 刪除字符串中多余的(前后的)空格:trim
  • 文本長度:len()

2.關(guān)聯(lián)匹配函數(shù)

LOOKUP

VLOOKUP

INDEX:相當(dāng)于數(shù)組定位

MATCH:查找數(shù)據(jù)在數(shù)組中的位置

OFFSET:偏移函數(shù)

ROW

COLUMN

HYPERLINK:去掉超鏈接

3.邏輯運算函數(shù)

  • ture----1 false-----0 判斷是真是假
  • 通常配合其他函數(shù)進行判斷,相加判斷滿足條件的個數(shù)
  • if函數(shù)
  • is系列函數(shù)

4.計算統(tǒng)計函數(shù)

  • sum
  • sumproduct:特殊用法----直接累加對應(yīng)相乘
  • count
  • max / min
  • rank:查找排名
  • rand randbetween
  • average
  • quartile:分位數(shù),第幾分位數(shù)
  • stdev
  • substotal:功能豐富,號稱“瑞士軍刀”
  • int:向下取整函數(shù)
  • round:四舍五入取整函數(shù)(可在小數(shù)點位置取整數(shù))

rand:隨機數(shù)字,用來隨機抽樣使用

多條件就和和多條件計數(shù)的情況下是非常多的,所以countifs和sumifs用的是非常的多,基本能搞定所有的統(tǒng)計報表,達到實時統(tǒng)計。缺點就是數(shù)據(jù)量達到一定程度后,Excel運行會比較慢

5.時間序列

時間的本質(zhì)是數(shù)字

周函數(shù)中,中國的習(xí)慣方式參數(shù)常選擇2

常用時間序列函數(shù)有:

  • year
  • month
  • day
  • date
  • weekday
  • now
  • weeknum
  • today

6.Excel使用常見技巧

快捷鍵

  • ctrl+方向鍵,光標(biāo)快速移動
  • ctrl+shift+方向鍵,快速框選
  • ctrl+空格鍵,選定整列
  • shift+空格鍵,選定整行
  • ctrl+A 選擇整張表
  • alt+enter 換行

功能

  • 分裂功能;查找替換;數(shù)據(jù)條(可視化);數(shù)據(jù)透視表(水晶表);凍結(jié)首行;

7.Excel常見工具

  • 數(shù)據(jù)切片:進行快速篩選(一般和多維分析關(guān)聯(lián)在一起的),可以和作圖工具進行相關(guān)聯(lián)

    應(yīng)用場景:做統(tǒng)計報表和儀表盤的統(tǒng)計篩選功能

  • 數(shù)據(jù)分析:直接對多想進行描述性統(tǒng)計

  • 自定義名稱:再次使用可對其直接引用

  • 刪除重復(fù)值:

  • 下拉列表:

  • 迷你圖:

8.總結(jié)

? 個人覺得主要還是在于實踐當(dāng)中的靈活運用,作為學(xué)習(xí),掌握有什么樣的函數(shù)用來做什么就可以了,工作中遇到的時候可能忘了怎么拼,但是能直接搜索把函數(shù)找出來用知道在哪里面找就好。當(dāng)然,記得更多的函數(shù)好處就是能迅速的通過函數(shù)的用法把函數(shù)靈活的組合去解決問題。其實最重要的也是通過邏輯關(guān)系把各種函數(shù)進行組合去解決問題。

第四周:數(shù)據(jù)可視化

1.有用的圖表

? 對于數(shù)據(jù)可視化,大多數(shù)人下意識是要好看,下意識的去追求美感,覺得高大尚。其實,美麗的圖表應(yīng)該是有用的圖表。

? 數(shù)據(jù)可視化的目的是讓數(shù)據(jù)更高效,讓讀者更高效的進行閱讀,而不是自己使用。好的可視化能突出背后的規(guī)律,突出重要的因素,最后才是美觀。

? 數(shù)據(jù)可視化的最終目的:數(shù)據(jù)作用的最大化。

2.常見的圖表

1.散點圖

核心:展現(xiàn)數(shù)據(jù)之間的規(guī)律

image

呈現(xiàn)出一定規(guī)律的散點圖可增加趨勢線,并通過選項將規(guī)律用公式表示出來。

改進圖:

  • 氣泡圖:散點圖的變種,引入第三個度量單位作為氣泡的大小
  • 單軸散點圖
image

2.折線圖

image

3.柱形圖

image

4.餅形圖

image

用面積區(qū)分大小,很多情況下肉眼是很難區(qū)分的,上圖為玫瑰圖---餅圖的變種

5.漏斗圖

image

6.雷達圖

image

3.高級圖表

1.樹形圖

image.png

數(shù)據(jù)量較大、數(shù)據(jù)類別較多時,能更好的體現(xiàn)數(shù)據(jù)分類情況。

2.桑基圖

image.png

繪制流量變動最開始,網(wǎng)站的流量,監(jiān)視用戶的行為分析,表示用戶在網(wǎng)站上的行為軌跡,一對多或多對一的關(guān)系

3.熱力圖

image.png

數(shù)據(jù)上下波動可用折線圖觀察,但是中間的某種關(guān)系展示揭示特殊關(guān)系使用熱力圖則可看出來。

4.關(guān)系圖

image.png

社交,社會媒體,微博的傳播,用戶和用戶之間的關(guān)注等

5.箱線圖

image

揭示數(shù)據(jù)的分布情況

6.標(biāo)靶圖

image

7.詞云圖

image

8.地理圖

image.png

數(shù)據(jù)和空間的關(guān)系

4.圖表繪制工具與技巧

1.繪制工具

  • 初級---Excel
  • 中高級---編程python、R和BI工具

2.繪制技巧

1.顏色搭配

color.adobe.com上有多種主流顏色搭配

2.顏色搭配原則

  • 把需要聚焦的數(shù)據(jù)進行顏色凸顯
  • 去掉多余沒有用的元素
  • 橫縱輔助線如果對肉眼觀察無幫助則去掉
  • 在報告中,內(nèi)容交給單元格來解決
  • 有設(shè)計規(guī)范

3.次坐標(biāo)軸的使用,使得數(shù)據(jù)能體現(xiàn)更多細節(jié)。

3.杜邦分析法

image

5.Power BI

1.BI基本功能要素

  • 單一圖表沒有意義,三表成虎,通過多表多因素展現(xiàn)分析。注意設(shè)計的表格揭示的是現(xiàn)象?還是原因?
  • BI中,power BI和Tableau是最著名的BI軟件。其中,Power BI免費易用適合新手入門。
image

BI中的數(shù)據(jù)鏈接,最好直接連接數(shù)據(jù)庫或者CSV文件,盡量不要xls文件。

power BI 的功能特點:

  • 制作的圖表可以進行聯(lián)動
  • 多對對的關(guān)系不能進行關(guān)聯(lián)
  • power BI內(nèi)的函數(shù)使用與Excel的函數(shù)應(yīng)用基本一致,不建議話太多的精力去學(xué)power BI里面的函數(shù)。
  • 建議使用Excel將數(shù)據(jù)進行清洗后,再已.csv的形式導(dǎo)入BI內(nèi)進行操作。
  • power BI可以引入第三方的一些高級功能(80%都是微軟自己的)來滿足使用者需求,例如添加更多的圖表形式,詞云圖等等。

2.Dashbord

  • 布局和設(shè)計要素:主次分明+貼合場景+指標(biāo)結(jié)構(gòu)
  • 建議先自己規(guī)劃好(自己用草稿紙動手去畫,思路會更好的捋順清楚)

1.場景案例

image
image
  • 考慮是誰在使用?
  • 用戶的目的是什么?
  • 是希望進行監(jiān)控?還是希望分析?
  • 用戶怎么使用?
  • 怎么改善BI?很多BI是有監(jiān)控的,看使用人都干什么,使用那些報表,會使用后臺監(jiān)控日志去調(diào)整改善BI的布局

2.指標(biāo)結(jié)構(gòu)案例

image

Dashbord是一個不斷迭代的設(shè)計過程,需要根據(jù)目的,不斷進化。

第五周:Mysql

這里先放上菜鳥教程的Mysql:http://www.runoob.com/mysql/mysql-tutorial.html

遇到不會的內(nèi)容,可以再進行查找復(fù)習(xí)。

1.數(shù)據(jù)庫的概念

  1. Mysql是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)
  2. 數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫,
  3. RDBMS即關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System)的特點:
    • 1.數(shù)據(jù)以表格的形式出現(xiàn)
    • 2.每行為各種記錄名稱
    • 3.每列為記錄名稱所對應(yīng)的數(shù)據(jù)域
    • 4.許多的行和列組成一張表單
    • 5.若干的表單組成database
  4. 數(shù)據(jù)庫的基本類型:char--文本 int--整數(shù) float--小數(shù) date--日期 timestamp--秒或者毫秒

2.基本語法

  1. 以下是基本通用的select語法:
SELECT column_name,column_name
FROM table_name
[WHERE Clause]
[LIMIT N][ OFFSET M]
  • select*form data.表名稱 *,為通配符,代表全部

  • limit 20,限制搜索結(jié)果

  • order by,排序依據(jù),可以設(shè)置多個依據(jù)。

  • where,對搜索結(jié)果進行一次過濾。其中可使用各種邏輯判斷條件。模糊查找“%京%”

  • 跨表分析,需要利用子查詢。join可以用來跨表整合,join left常用

    image
  • 對于數(shù)據(jù)類型的改變,可以在select一行進行設(shè)置。
    image

3.總結(jié)

  1. 對于SQL語法,可能是個人記性或者SQL太過生疏,2倍速度看過的視頻,回頭總結(jié)時語法都忘記了。
  2. 加上其他人的經(jīng)驗,SQL應(yīng)該是需要到實踐中去記憶與進步。
  3. https://leetcode.com/ 刷題地址在這里,面試前刷一些。

第六周:統(tǒng)計學(xué)

1.描述性統(tǒng)計學(xué)

  1. 分類數(shù)據(jù)的描述性統(tǒng)計:單純計數(shù)就可以
  2. 數(shù)據(jù)描述統(tǒng)計:
  3. 統(tǒng)計度量:平均數(shù)--數(shù)據(jù)分布比較均勻的情況下進行,中位數(shù),眾數(shù),分位數(shù)(4分位、10分位、百分位)
  4. 圖形:
  5. 權(quán)重預(yù)估(分位數(shù))
  6. 數(shù)據(jù)分布(波動情況,標(biāo)準(zhǔn)差,方差)
  7. 數(shù)據(jù)標(biāo)準(zhǔn)化:
image

在實際用用的時候,有很多情況量綱不一致(即數(shù)據(jù)單位不一樣)導(dǎo)致差異很大無法進行比較

用數(shù)據(jù)標(biāo)準(zhǔn)化將數(shù)據(jù)進行一定范圍的壓縮,得到的結(jié)果與數(shù)據(jù)業(yè)務(wù)意義無關(guān),純粹是數(shù)據(jù)上的波動達到可進行對比。

xi:數(shù)據(jù)的具體值

u:平均值

σ:標(biāo)準(zhǔn)差

  • 標(biāo)準(zhǔn)化之后一般都是在0上下直接按波動的數(shù)字,就可以反應(yīng)原始數(shù)據(jù)的典型特征進行分析。
  • 但是,標(biāo)準(zhǔn)化的辦法還需要根據(jù)實際數(shù)據(jù)類型確認,不同標(biāo)準(zhǔn)化辦法的實際標(biāo)準(zhǔn)化意義不同。
  • 關(guān)于銷量等特征與時間的關(guān)系,需要從多個時間維度去分析才能得到更多結(jié)論。如,周期、月份和年份。
  • 切比雪夫定理是一個經(jīng)驗定理,可以用來排除大部分異常值。數(shù)據(jù)量越大,精確度更高。
image

2.描述統(tǒng)計可視化

1.箱線圖:描述一組數(shù)據(jù)的分布情況。

image

Excel中能直接對數(shù)據(jù)進行作圖,并且還能添加許多對比條件。

2.直方圖:數(shù)值數(shù)據(jù)分布的精確圖形表示

image
  • 標(biāo)準(zhǔn)型:分布均勻,出現(xiàn)在大多數(shù)場景下。
  • 陡壁型:比較容易出現(xiàn)在收費領(lǐng)域
  • 鋸齒型:說明數(shù)據(jù)不夠穩(wěn)定
  • 孤島型:要研究分析孤島產(chǎn)生的原因
  • 偏峰型:銷售數(shù)據(jù)一般會產(chǎn)生偏鋒,一般會出現(xiàn)長尾(或左或右)
  • 雙峰型:兩者數(shù)據(jù)混合一般會形成雙峰

直方圖引出另外一個概念:偏度,統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量

正態(tài)分布:也稱“常態(tài)分布”

image

以上公式成立是,有標(biāo)準(zhǔn)正態(tài)分布。

image
image

可以用來進行異常值排查,或者假設(shè)的數(shù)據(jù)分布。

3.概率推斷統(tǒng)計

統(tǒng)計推斷(statistical inference),指根據(jù)帶隨機性的觀測數(shù)據(jù)(樣本)以及問題的條件和假定(模型),而對未知事物作出的,以概率形式表述的推斷。

image

重要概念:貝葉斯定理

image

在知道結(jié)果A已經(jīng)發(fā)生,想要推導(dǎo)出各種原因發(fā)生的可能性情況。

貝葉斯分析的思路對于由證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用, 它告訴我們當(dāng)我們要預(yù)測一個事物, 我們需要的是首先根據(jù)已有的經(jīng)驗和知識推斷一個先驗概率, 然后在新證據(jù)不斷積累的情況下調(diào)整這個概率。整個通過積累證據(jù)來得到一個事件發(fā)生概率的過程我們稱為貝葉斯分析。

第七周:Python

1.Python基本功能

1.利用Python寫腳本

2.excel可視化有性能瓶頸,需要Python來實現(xiàn)。

3.Python安裝與數(shù)據(jù)分析相關(guān)如下

  • Python的數(shù)據(jù)科學(xué)環(huán)境
  • Python基礎(chǔ)
  • Numpy和Pandas
  • 數(shù)據(jù)可視化
  • 數(shù)據(jù)分析案例
  • 數(shù)據(jù)分析平臺(輕量級BI)

2.Numpy和pandas

1.Python groupby

mysql不支持分組排序

2.concat和merge

concat是強行耦合

merge,是有共同名,優(yōu)先表進行耦合

3.多重索引
image

4.文本函數(shù)

image

填充空值,None需要用np.nan,c語言形式的控制

pd.dropna()去除所有還有空值的行

image

5.Python pandas apply

image

6.聚合 apply

image

7。pandas數(shù)據(jù)透視

image
image

輸出結(jié)果
image

7.python連接數(shù)據(jù)庫

Pandas中讀取數(shù)據(jù)庫:

conn=pymysql.connect(
    host='localhost',
    user='root',
    password='123456',
    db='data_kejilie',
    port=3306,
    charset='utf8'
)
def reader(query,db):
    sql=query
    engine=create_engine('mysql+pymysql://root:123456@localhost/{0}?charset=utf8').format(db))
    df=pd.read_sql(sql,engine)
    return df
    
reader

cur.execute('select * from article_link ')

data=cur.fetchall()

cur.close()
conn.commit()

3.數(shù)據(jù)可視化

可視化課程沒有進行記錄,詳情可以參照

https://www.kesci.com/apps/home/project/5a6cac37afceb51770d6ee9f

中的可視化代碼展示。

4.案例實戰(zhàn)分析

https://www.kesci.com/apps/home/project/5aa687afcbc87e3f21332885

利用課程提供的數(shù)據(jù)集,簡單分析練手了一下。

5.數(shù)據(jù)分析平臺

本次使用的是Python中的superset庫,基于web的數(shù)據(jù)分析平臺。

嚴重提示:安裝這個庫一定要新建一個虛擬環(huán)境后再進行pip安裝,不然會使得依賴庫和Anaconda中的部分庫沖突,使得原環(huán)境的庫無法正常調(diào)用

使用邏輯:

  1. 先加載數(shù)據(jù)庫或者數(shù)據(jù)文件
  2. 寫好sql語法,進行一定編輯數(shù)據(jù)集。
  3. 在silces里面對于數(shù)據(jù)集,進行一個個圖的繪畫與調(diào)整
  4. Dashboard里進行最后圖表的匯合。
image

詳情安裝可以參考這篇文章:

http://blog.csdn.net/qq273681448/article/details/75050513

總結(jié)

? 《七周成為數(shù)據(jù)分析師》課程終于學(xué)習(xí)完,整理、總結(jié)并且回顧了一遍,寫下這一篇文章。課程整體偏向整體性的介紹,對常用部分才做一個實現(xiàn)與技巧的具體講解,整體有輕有重,對于完成的新手來說還是比較不錯的課程進行入門了解與基礎(chǔ)學(xué)習(xí)。

? 前兩周的內(nèi)容,個人認為是比較重要的,數(shù)據(jù)分析的思維在每一周的學(xué)習(xí)中都能有所體現(xiàn)。前面兩周,我是按照正常速度進行觀看,并且做一定筆記。但是,在到了Excel部分后發(fā)現(xiàn)視頻的節(jié)奏有些慢,自己的耐心也有了一些降低,后來自己嘗試將視頻播放速度調(diào)整至兩倍,對于學(xué)習(xí)的注意力集中起到了不錯的效果,推薦各位可以嘗試使用這種方法。

? 《七周成為數(shù)據(jù)分析師》這個課程從寒假2月份就決定要學(xué),計劃3月5號即開學(xué)前完成,但是直到3-11開學(xué)后一周才徹底完成。對于計劃的執(zhí)行情況不好,需要在以后學(xué)習(xí)中繼續(xù)調(diào)整規(guī)劃策略,端正態(tài)度。但是,最后還是把規(guī)劃完成了!還是給自己點個贊,哈哈。

? 寫成總結(jié)文章也是希望有需要的人能通過此得到些幫助,自己也能從中總結(jié)與整理知識。本文會發(fā)布在個人公眾號:數(shù)據(jù)路(shuju_lu),知乎:無小意丶,博客:無小意。以后也會繼續(xù)在這些平臺上,輸出更多有價值的內(nèi)容,歡迎討論與學(xué)習(xí)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,461評論 6 532
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,538評論 3 417
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,423評論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,991評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,761評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,207評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,268評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,419評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,959評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,782評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,983評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,222評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,653評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,901評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,678評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 47,978評論 2 374