1.導(dǎo)入文件
打開Jupyter Notebook,講文件路徑定位到數(shù)據(jù)存儲(chǔ)文件夾,然后點(diǎn)擊New,創(chuàng)建Python3。看之前學(xué)員的作業(yè),說是創(chuàng)建notebok,但是我的是灰色的,無法創(chuàng)建。
#導(dǎo)入數(shù)據(jù)
#導(dǎo)入模塊,并起別名
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats #從stats模塊中導(dǎo)入scipy
weight_data = pd.read_table("weight.txt") #將數(shù)據(jù)讀入
weight_data.shape
(80, 1)
2.計(jì)算均值和方差
weight_data['weight'].mean()
50.7
weight_data['weight'].var()
39.27594936708859
3.畫直方圖
fig = plt.figure()
x = weight_data['weight']
ax = fig.add_subplot(111)
numBins = 20
ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
plt.title(u'weight')
plt.show()
output_7_0.png
4.數(shù)據(jù)分析
數(shù)據(jù)分析
1、均值為50.7,方差為39.27,離散度不高,體重均值偏輕,懷疑是女性或者未成年群體居多。
2、數(shù)據(jù)整體呈正態(tài)分布。
3、體重在45——50歲之間人數(shù)最多,最高不超過70,最低不超過35。
第二個(gè)文件
1.導(dǎo)入文件
AirPassengers_data = pd.read_csv("AirPassengers.csv")
AirPassengers_data.shape
(144, 2)
passengers = AirPassengers_data['NumPassengers']
mouth = AirPassengers_data['Month']
2.計(jì)算均值和方差
passengers.mean()
280.2986111111111
passengers.var()
14391.917200854701
3.畫直方圖
fig = plt.figure()
x = passengers
ax = fig.add_subplot(111)
numBins = 50
ax.hist(x,numBins,color='blue',alpha=0.6,rwidth = 0.8)
plt.title(u'passengers')
plt.show()
output_18_0.png
4.數(shù)據(jù)分析
數(shù)據(jù)分析
1、均值為280.2,方差為14391.9,離散度很高,說明乘客數(shù)量波動(dòng)較大。
2、直方圖有遞減趨勢(shì),隨著人數(shù)的增多,次數(shù)也有一定的下降。
3、乘客在100到200之間人數(shù)最多,而且分布比較平均。
4、人數(shù)在230次數(shù)最多,而且高出其他數(shù)據(jù)很多,懷疑是異常值,需要重新檢查數(shù)據(jù)。