1、背景 目的:平臺(tái)每日活躍用戶(hù)沒(méi)有顯著提升,但用戶(hù)構(gòu)成比例中新訪(fǎng)客比率逐漸上升,老用戶(hù)的留存率逐漸下降,根據(jù)需求進(jìn)行付費(fèi)用戶(hù)流失情況作一個(gè)專(zhuān)題分析,內(nèi)容包括:流失用戶(hù)識(shí)別,...

1、背景 目的:平臺(tái)每日活躍用戶(hù)沒(méi)有顯著提升,但用戶(hù)構(gòu)成比例中新訪(fǎng)客比率逐漸上升,老用戶(hù)的留存率逐漸下降,根據(jù)需求進(jìn)行付費(fèi)用戶(hù)流失情況作一個(gè)專(zhuān)題分析,內(nèi)容包括:流失用戶(hù)識(shí)別,...
1. duplicated() 和 drop_duplicated() duplicated() 檢測(cè)重復(fù)值,drop_duplicated() 去掉重復(fù)值。 1.1 查看重...
1. 分組,透視,交叉 2. 分組 多層級(jí)的數(shù)據(jù)邏輯 導(dǎo)入英雄數(shù)據(jù): 分組: 第一步:groupby,拿到一個(gè)對(duì)象。 通過(guò)對(duì)象的groups的屬性可以拿到一個(gè)字典 第二步:將...
1.plt顏色設(shè)置 常用的顏色: 2. Seaborn顏色設(shè)置 調(diào)色板:(1)sns.set_palette() (2) sns.color_palette() 一般用調(diào)色...
知識(shí)點(diǎn) 1.置信水平 2. 1. 數(shù)據(jù)集下載 2. 以鳶尾花數(shù)據(jù)和泰坦尼克號(hào)為例 2.1 線(xiàn)型圖 iris = sns.load_dataset('iris')iris.h...
1.集成學(xué)習(xí)原理 Bagging思想,把強(qiáng)變?nèi)酰黄鸪鲋饕猓镀被蚱骄oosting思想,通過(guò)線(xiàn)性組合把弱變強(qiáng)。 2. Boosting實(shí)現(xiàn) 2.1 導(dǎo)入數(shù)據(jù),KNN建模...
1. 3種繪圖 pandas 和 seaborn 繪圖都是基于 matplotlib的 變化趨勢(shì)用線(xiàn)性圖,對(duì)應(yīng)關(guān)系用散點(diǎn)圖,大小比較用條形圖,數(shù)據(jù)分布用直方圖,數(shù)據(jù)組成用餅圖...
1. stacking 功能:模型融合 bagging 和 boosting基于同一個(gè)算法。stacking不受方法限制,可以把不同的方法封裝成1個(gè)投票器,一起工作。 2.實(shí)...
1. KMeans原理 使用歐式距離,相似的事物的距離測(cè)量更短,不相似的距離更長(zhǎng)。 分類(lèi)和聚類(lèi)的區(qū)別 兩者的目標(biāo)不一樣,操作對(duì)象不一樣分類(lèi):拿到點(diǎn),進(jìn)行類(lèi)別的劃分,屬于哪個(gè)類(lèi)...
1.聚類(lèi)分析 2.聚類(lèi)的基本使用 2.1 思路 1.生成有2個(gè)特征,分布有3個(gè)中心的假數(shù)據(jù)2.用散點(diǎn)圖展示3.訓(xùn)練預(yù)測(cè)并展示 2.2 實(shí)現(xiàn) 2.2.1導(dǎo)包 import nu...
1.圖例繪制 2種方法 導(dǎo)入各包: 2.展示吸煙者和不吸煙者的平均消費(fèi)賬單 注: ci 是置信水平的意思,在此處只能設(shè)置95,即置信水平為95% ,對(duì)應(yīng)接近2倍的標(biāo)準(zhǔn)差。 1...
1.圖形種類(lèi) seaborn 常用 基于matplotlib, 解決分組問(wèn)題。【橫軸,縱軸,數(shù)據(jù)集】往往畫(huà)的聚合指標(biāo)圖像barplot() 條形圖scatterplot(...
1.知識(shí)點(diǎn) 2.實(shí)現(xiàn) 2.1 導(dǎo)包和讀取數(shù)據(jù)集 import numpy as npimport pandas as pdfrom pandas import Series,...
1.知識(shí)點(diǎn) 2.實(shí)現(xiàn) 2.1 導(dǎo)包 from sklearn.tree import DecisionTreeClassifierimport seaborn as snsi...
1. 多輸出問(wèn)題 多個(gè)y值,y也為VSM結(jié)構(gòu) from sklearn.tree import DecisionTreeRegressorX(VSM) yX Y(VSM)...
1. 數(shù)據(jù)集鳶尾花分析 2.用決策樹(shù)分析 2.1 導(dǎo)包 基于Cart樹(shù)的實(shí)現(xiàn) 只劃分二叉樹(shù) from sklearn.tree import DecisionTreeClas...
1. 決策樹(shù) https://blog.csdn.net/dorisi_h_n_q/article/details/82787295[https://blog.csdn.ne...
1. 知識(shí)點(diǎn) 所有字段都為離散的,犯罪是有原因的,因素和結(jié)果是有概率關(guān)系。 2.實(shí)現(xiàn) 2.1導(dǎo)包 import numpy as npimport pandas as pdf...
1.混淆矩陣 接受者操作特征(Receiver Operating Characteristic Curve,ROC)曲線(xiàn)是顯示分類(lèi)器真正率和假正率之間折中的?種圖形化?法,...