4

非預測性分析(Non-Predictive Analysis):

地理空間分析(Geospatial Analysis)

這種類型的分析使用基于地理位置的數據來推導結論。例子有:通過地理區域識別客戶,計算店鋪之間的距離以及根據客戶位置創建交易區域。

細分分析(Segmentation Analysis)

細分是將數據分組的過程。分組可以是簡單的,比如購買不同東西的客戶,也可以是復雜的,比如根據客戶的人口特征統計來識別相似的店鋪。

聚合分析(Aggregation Analysis)

此方法用于計算跨組或跨維度的數據,在數據分析中很常用。舉例來說,你可能想要某個銷售員的月度銷售匯總,將其每個月的銷售額相加即可。然后,你可能需要跨維度進行匯總,比如各銷售領域的月度銷售

匯總。聚合通常用于報告,以達到劃分和區別信息的作用,有助于管理層制定決策和觀察表現。

描述性分析(Descriptive Analysis)

描述性統計可提供一個數據樣本的簡單概括。比如說計算一所學校申請者的平均 GPA,或者計算一個職業棒球員的擊球平均水平。在我們的電力供應案例中,我們可以使用描述性統計來計算每小時、每天或某一

天的平均溫度。

一些常用的描述性統計包括平均值、中位數、眾數、標準方差和四分位差。【描述性統計學參考資料:https://cn.udacity.com/course/intro-to-descriptive-statistics--ud827

預測商業問題:

數據豐富(Data Rich) vs 數據不足(Data Poor)

數據不足的商業問題:

數據不足的情況下就要構建一個實驗來幫助我們得到想要的數據。給出特定商業情景的實驗通常指的是A/B測試。

數據豐富的商業問題:

數值型(Numeric)vs非數值型(Non-Numeric)預測分析

回歸模型(Regression Models)【目標變量是數值型】

數值型結果是那些用數字表示的結果。

目標變量(Target Variables)

目標變量代表需要預測的結果。為了選擇正確的預測模型,我們首先要確定目標變量是數值型還是非數值型。讓我們先從數值型變量開始。

數值型變量(Numeric Variables)的種類

三種最常見的數值型變量是連續型、基于時間型以及計數型。

連續型(Continuous)

連續型變量能包含一個范圍內的所有數值。打個比方,你的身高能測量到多個小數位的精度,我們不會以每英寸的間隔成長。

基于時間型(Time-Based)

基于時間的數值型變量是預測在某一段時間內會發生什么的一種變量,常常與“預報”有關。

計數型(Count)

計數型變量是離散的正整數。它們被稱為計數數字是因為被用來分析能夠計數的變量。在商業中這類型的變量并不常見

分類模型(Classification Models)【目標變量是類型】

非數值型結果是那些我們要預測案例或客戶所屬類型的結果,比如客戶是按時付款、延期付款還是拖欠貸款。

另一個例子是:某電子設備是否會在 1000 個小時內出故障。預測非數值型數據的模型被稱為分類模型。

二元和非二元(Binary and Non-Binary)【拓展閱讀:Ben Burkholder 有一門講解分類模型的課程,將深入探討這些不同種類的模型。】

二元:

當給分類變量建模時,可能的結果數量是一個重要參數。如果只有兩種可能的分類結果,比如是和否,或者對和錯,那么這個變量就被稱為二元變量。

非二元:

如果有多于兩種的分類結果,比如小、中、大或者按時付款、拖延付款、拖欠付款,那么該變量就被稱為是非二元變量。這節課的重要內容是要能夠決

定是否使用分類模型以及是否應該使用二元模型或非二元模型。

錯題:

提示:因為咖啡連鎖店沒有關于新產品電視廣告的影響的數據,他們需要用 A/B 測試來預測電視廣告的影響。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容