中文字幕在线精品视频入口一区,末成年女a∨片一区二区,女警察的奶又白又大

之前寫過一篇一個框架解決幾乎所有機器學(xué)習(xí)問題但是沒有具體的例子和代碼，今天看到一個不錯的 kaggle 上的 code Exploratory Tutorial - Titanic 來解析一下，源碼可以直接點這個鏈接。

在這篇文章中可以學(xué)到一個完整的運用機器學(xué)習(xí)解決分析問題的過程，它包括了解決問題的一般流程，描述性統(tǒng)計的常用方法，數(shù)據(jù)清洗的常用方法，如何由給定的普通變量啟發(fā)式思考其他影響因素，sklearn 建立模型的一般流程，以及很火的 ensemble learning 怎么用。

下面進入正題：

在 Titanic: Machine Learning from Disaster 這個問題中，要解決的是根據(jù)所提供的 age，sex 等因素的數(shù)據(jù)，判斷哪些乘客更有可能生存下來，所以這是一個分類問題。

在解決機器學(xué)習(xí)問題時，一般包括以下流程：

Data Exploration
Data Cleaning
Feature Engineering
Model Building
Ensemble Learning
Predict

<h4 id="explore">1. Data Exploration</h4>

這部分先導(dǎo)入常用的 Numpy，Pandas，Matplotlib 等包，導(dǎo)入訓(xùn)練集和測試集：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

之后，可以用下面的命令先觀察一下數(shù)據(jù)表的結(jié)構(gòu)：

train.tail()
test.head()
train.describe()

接下來，可以觀察各個變量的分布情況：

各個變量在測試集和訓(xùn)練集的分布差不多一致。

然后看一下各個變量對分類標簽的影響：

例如，性別的影響，通過可視化可以發(fā)現(xiàn)，生還的乘客中女性多于男性.

或者 Pclass 的影響。

<h4 id="clean">2. Data Cleaning</h4>

這個部分，可以統(tǒng)計一下各個變量的缺失值情況：

train.isnull().sum()
#test.isnull().sum()


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

然后對缺失部分進行處理，如果是連續(xù)變量，可以采用預(yù)測模型，例如 Age，如果是離散的變量，可以找到類似的數(shù)據(jù)群體，然后取最多的，或者最多群體的平均值。
eg，Embarked 這兩個缺失值，可以看 Pclass 1 and Fare 80 時，最多的情況是 Embarked＝C。

<h4 id="feature">3. Feature Engineering</h4>

之前有過一篇特征工程怎么做只是介紹了一些概念，這個例子就是比較具有啟發(fā)性，看看怎么通過給定的幾個變量，去拓展成更有影響力的 feature，如何結(jié)合實際情況聯(lián)想新的因素，并轉(zhuǎn)化成數(shù)字的形式表達出來。

下面是數(shù)據(jù)中的原始變量，看看由它們可以聯(lián)想到什么因素。

pclass          Passenger Class
                (1 = 1st; 2 = 2nd; 3 = 3rd)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation
                (C = Cherbourg; Q = Queenstown; S = Southampton)

除了性別，年齡等明顯的因素，社會地位等也可能影響著誰會優(yōu)先乘坐救生艇，或被救助而生存下來。例如，

Name 里可以抓取到這樣的字眼，來反映出乘客的職場地位： ['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev']。
Cabin 里的 [a-zA-Z] 也許可以反映出社會地位。
Cabin 里的 [0-9] 可能代表船艙的地理位置。
SibSp 可以算出乘客中同一家庭成員人數(shù)的大小。

title[title.isin(['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev'])] = 'Officer'

deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())

checker = re.compile("([0-9]+)")

full['Group_num'] = full.Parch + full.SibSp + 1

在這個環(huán)節(jié)中，還有必要把類別數(shù)據(jù)變換成 dummy variable 的形式，也就是變換成向量格式，屬于第幾類就在第幾個位置上為 1，其余位置為 0.

連續(xù)數(shù)據(jù)做一下歸一化，即把大范圍變化的數(shù)據(jù)范圍縮小至 0～1 或者－1～1 之間。
然后把不相關(guān)的變量 drop 掉。

train = pd.get_dummies(train, columns=['Embarked', 'Pclass', 'Title', 'Group_size'])

full['NorFare'] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index)

full.drop(labels=['PassengerId', 'Name', 'Cabin', 'Survived', 'Ticket', 'Fare'], axis=1, inplace=True)

<h4 id="model">4. Model Building</h4>

首先就是把數(shù)據(jù)分為訓(xùn)練集和測試集，用到 train_test_split，

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

因為后面會用到很多模型，所以可以把 cross validation 和 fit 的部分寫入一個函數(shù)，這樣每次把分類器投入到函數(shù)中訓(xùn)練，最后返回訓(xùn)練好的模型即可。

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import accuracy_score

scoring = make_scorer(accuracy_score, greater_is_better=True)

def get_model(estimator, parameters, X_train, y_train, scoring):  
    model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring)
    model.fit(X_train, y_train)
    return model.best_estimator_

以一個 KNN 為例，來看一下建立訓(xùn)練并用模型預(yù)測的過程，

從 sklearn 導(dǎo)入分類器模型后，定義一個 KNN，
定義合適的參數(shù)集 parameters，
然后用 get_model 去訓(xùn)練 KNN 模型，
接下來用訓(xùn)練好的模型去預(yù)測測試集的數(shù)據(jù)，并得到 accuracy_score，
然后畫出 learning_curve。

from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(weights='uniform')
parameters = {'n_neighbors':[3,4,5], 'p':[1,2]}
clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)

print (accuracy_score(y_test, clf_knn.predict(X_test)))
plot_learning_curve(clf_knn, 'KNN', X, y, cv=4);

采用上面的方式，嘗試多種模型，并打印出它們的 accuracy_score：

KNN， 0.816143497758
Random Forest， 0.829596412556
只選擇比較重要的幾個特征后的 Random Forest， 0.834080717489
Logistic Regression， 0.811659192825
SVC， 0.838565022422
XGBoost， 0.820627802691

<h4 id="ensemble">5. Ensemble</h4>

接下來把前面訓(xùn)練好的幾個分類器用 VotingClassifier 集成起來再 fit 訓(xùn)練一下，打印 accuracy_score 并畫出 learning_curve。

from sklearn.ensemble import VotingClassifier
clf_vc = VotingClassifier(estimators=[('xgb1', clf_xgb1), ('lg1', clf_lg1), ('svc', clf_svc), 
                                      ('rfc1', clf_rfc1),('rfc2', clf_rfc2), ('knn', clf_knn)], 
                          voting='hard', weights=[4,1,1,1,1,2])
clf_vc = clf_vc.fit(X_train, y_train)

print (accuracy_score(y_test, clf_vc.predict(X_test)))
plot_learning_curve(clf_vc, 'Ensemble', X, y, cv=4);

ensemble, 0.825112107623

<h4 id="pred">6. Prediction</h4>

用最后訓(xùn)練好的 model 去預(yù)測給出的測試集文件，并把數(shù)據(jù)按照指定格式做好，存進 csv 提交即可。

def submission(model, fname, X):
    ans = pd.DataFrame(columns=['PassengerId', 'Survived'])
    ans.PassengerId = PassengerId
    ans.Survived = pd.Series(model.predict(X), index=ans.index)
    ans.to_csv(fname, index=False)

歷史技術(shù)博文鏈接匯總

我是 不會停的蝸牛 Alice
85后全職主婦
喜歡人工智能，行動派
創(chuàng)造力，思考力，學(xué)習(xí)力提升修煉進行中
歡迎您的喜歡，關(guān)注和評論！

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

通過一個kaggle實例學(xué)習(xí)解決機器學(xué)習(xí)問題

通過一個kaggle實例學(xué)習(xí)解決機器學(xué)習(xí)問題

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

通過一個kaggle實例學(xué)習(xí)解決機器學(xué)習(xí)問題

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频