1.1 載入數據
1.1.1 任務一:導入numpy和pandas
1.1.2 任務二:載入數據
1)相對路徑:以當前文件夾位置為基準的路徑
f = open('./titanic/test.csv')
2)絕對路徑:完整的路徑
../ 表示當前文件所在的目錄的上一級目錄
./ 表示當前文件所在的目錄(可以省略)
-
/ 表示當前站點的根目錄
使用os.getcwd() 獲取得知文件當前工作目錄路徑(絕對路徑)
用pd.read_csv() 和pd.read_table()讀取數據時,可以得到
截屏2021-06-15 09.20.32.png
截屏2021-06-15 09.20.42.png pd.read_csv()默認分隔符為',' (逗號)
pd.read_table()默認分隔符為'/t' (tab)
用pd.read_csv()和pd.read_table()讀取csv文件時,二者的呈現不同,前者更加清晰,后者數據用逗號隔開,相對不清晰
用pd.read_table()讀取csv文件時,需要調整參數,加上',' 即可得到與pd.read_csv()讀取csv文件時的呈現相同(如圖)
TSV是用制表符(Tab,'\t')作為字段值的分隔符;CSV是用半角逗號(',')作為字段值的分隔符
1.1.3 任務三:每1000行為一個數據模塊,逐塊讀取
逐塊讀取的目的在于將文本分成若干塊,以1000個行為為一個數據模塊,chunksize=1000,對數據進行逐塊統計的合并處理
1.1.4 任務四:將表頭改成中文,索引改成乘客ID
header=0 表示文件第0行(索引從0開始)為列索引,這樣加names會替換原來的列索引。
1.2 初步觀察
1.2.1 任務一:查看數據基本信息
查看數據基本信息 df.info()
1.2.2 任務二:觀察表格前10行和后15行數據
-
df. head (10) 和 df. tail (15)
若將二者合并一起觀察即為
截屏2021-06-15 13.09.26.png
1.2.4 任務四:判斷數據是否為空,空的返回True,其余返回False
1.3 保存數據
- df.to_csv('./titanic/train_Chinese.csv') 是dataframe類的方法,保存csv文件到相對位置下
1.4 知道數據叫什么
1.4.1 任務一:了解dataframe和series,寫個小例子
- numpy具有優秀的計算機能,pandas在numpy的基礎上,具有數據分析能力
-
pandas一維數據結構:Series(向量)二維數據結構:Dataframe
pd.Series() 即可創建series函數
截屏2021-06-15 14.18.31.png
pd.Dataframe()創建Dataframe結構
截屏2021-06-15 14.36.34.png
1.4.2 任務二:載入數據
- df = pd.read_csv('./titanic/train.csv')
1.4.3 任務三:查看dataframe每列項
- df.columns
1.4.4 任務四:查看Cabin所有項
- df.Cabin
1.4.5 任務五:刪除多余列
發現test_1.csv與train.csv的區別在于列a
- df = pd.read_csv('./titanic/test_1.csv')
- del df['a']
1.4.6 任務六:隱藏多個指定列
- df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
axis=1 代表跨列,axis=0代表跨行
若用drop語法完成任務五,即為 - df.drop('a',axis=1)
【思考回答】
若需完全刪除數據結構,即為
- df.drop('columns',axis=1,inplace='True')
- 在這里 就是df.drop('a',axis=1, inplace='True') 使用inplace就將原數據覆蓋
1.5篩選邏輯
1.5.1 任務一:以"Age"為篩選條件,顯示年齡在10歲以下的乘客信息。
- df[df["Age"]<10]
1.5.2 任務二:以"Age"為條件,將年齡在10歲以上和50歲以下的乘客信息顯示出來,并將這個數據命名為midage
midage= df[(df["Age"]>10)&(df["Age"]<50)]
&表示兩組數據集合
1.5.3 任務三:將midage的數據中第100行的"Pclass"和"Sex"的數據顯示出來
如果缺少了midage = midage.reset_index(drop=True)這一步驟,我們會發現得出的數據不同,reset前的midage最后一條index的數字是890,但reset后最后一條index的數字是575,說明過濾掉了一些數據,那么沒有reset這個步驟的話,得到的index=100的數據不一定是第100條的數據
1.5.4 任務四:將midage的數據中第100,105,108行的"Pclass","Name"和"Sex"的數據顯示出來
- midage.loc[[100,105,108],['Pclass','Name','Sex']]
- loc只能通過index和columns來取,不能用數字
1.5.5 任務五:使用iloc方法將midage的數據中第100,105,108行的"Pclass","Name"和"Sex"的數據顯示出來
- midage.iloc[[100,105,108],[3,4,5]]
- iloc只能用數字索引,不能用索引名
1.6 了解數據
1.6.1 任務一:利用Pandas對示例數據進行排序,要求升序
- 行索引升序
- df.sort_index(axis=0, ascending=True)
- axis=0 代表行,ascending=True 代表升序
- 列索引升序
- df.sort_index(axis=1, ascending=True)
- axis=1 代表列
- 列索引降序,ascending=False 代表降序
- df.sort_index(axis=1, ascending=False)
- ascending=False 代表降序
- 讓任選兩列數據同時降序排序
- df.sort_values(by=['e','d'],ascending=False)
- 發現df.sort_index(axis=1,by=['e','d'],ascending=False)運行錯誤:sort_index()不與by共用
1.6.2 任務二:對泰坦尼克號數據(trian.csv)按票價和年齡兩列進行綜合排序(降序排列
- df.sort_values(by=['票價','年齡'],ascending=False)
同時考慮以下關系 - df.sort_values(by=['票價','是否幸存'],ascending=False)
- df.sort_values(by=['是否幸存','乘客等級(1/2/3等艙位)'],ascending=True)
- df.sort_values(by=['是否幸存','性別'],ascending=False)
- 發現票價高的,乘客等級高的,男性,存活率大
1.6.3 任務三:利用Pandas進行算術計算,計算兩個DataFrame數據相加結果
- 對應的行和列的值會相加,沒有對應的會變成空值NaN
- frame_a * frame_b
1.6.4 任務四:通過泰坦尼克號數據如何計算出在船上最大的家族有多少人?
- 最大的家族人數即為乘客的(兄弟姐妹個數+父母子女個數)的最大值
- max(df['兄弟姐妹個數'] + df['父母子女個數'])
1.6.5 任務五:學會使用Pandas describe()函數查看數據基本統計信息
- frame2.describe()將會看到數據基本信息統計
count : 樣本數據大小
mean : 樣本數據的平均值
std : 樣本數據的標準差
min : 樣本數據的最小值
25% : 樣本數據25%的時候的值
50% : 樣本數據50%的時候的值
75% : 樣本數據75%的時候的值
max : 樣本數據的最大值
1.6.6 任務六:分別看看泰坦尼克號數據集中 票價、父母子女 這列數據的基本統計數據,你能發現什么?
-
用df['票價'].describe()查看某一列數據基本統計數據
截屏2021-06-15 21.37.17.png - 得知票價平均值約32.2,最大值512.32,可知票價差距很大;標準差約為49.69,票價波動大
- 得知幸存概率較低
- 得知男性乘客有577名