import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
weight_data = pd.read_table('weight.txt')
weight = weight_data['weight']
fig = plt.figure()
plt.rcParams["font.family"] = "SimHei" #修改字體屬性,顯示漢字
x = weight
ax = fig.add_subplot(111)
numBins = 20
ax.hist(x,numBins,color = 'blue')
plt.title(u'體重的直方圖')
plt.show()
output_1_0.png
weight.mean()
50.7
weight.std()
6.26705268583954
從直方圖可以得出的結論如下:
1. 體重不是任意分布,分布范圍在38~69。
2. 體重不是平均分布,從平均值50.7和標準差6.26可知,數據集中在44.44~56.96。
3. 組值69、頻數2的數據偏離平均值最遠,超過標準差范圍。
4. 數據主要集中在42~55之間,極端數據對整個樣本影響較小。
5. 這組體重數據屬于平均斯坦,受到平均數周圍數據的影響較大。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
AirPassengers_data= pd.read_csv('AirPassengers.csv')
NumPassengers = AirPassengers_data['NumPassengers']
fig = plt.figure()
x = NumPassengers
ax = fig.add_subplot(111)
numBins = 40
plt.rcParams["font.family"] = "SimHei"
ax.hist(x,numBins,color = 'blue')
plt.title(u'乘客數')
plt.show()
output_5_0.png
NumPassengers.mean()
280.2986111111111
NumPassengers.std()
119.96631694294321
從直方圖可以得出的結論如下:
1. 乘客數不是任意分布,分布范圍在100~620。
2. 乘客數不是平均分布,從平均值280和標準差119,可知,主要數據分布范圍在161~399
3. 組值600、頻數2的數據偏離平均值最大,超過標準差的范圍。
4. 大量數據集中在100~400之間, 極端數據對整個樣本影響較小。
5. 這組乘客數數據屬于平均斯坦,受到平均數周圍數據的影響較大。
#2種加載中文方法
#第一種 指定系統的字體屬性到一個參數,每次需要加載在指定參數
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
plt.title(u"體重的直方圖", fontproperties=font)
#第二種 直接修改默認的字體屬性
plt.rcParams["font.family"] = "SimHei"