本課索引
代碼 | 說明 |
---|---|
---導入pandas--- | |
import pandas as pd | 導入pandas包并將之簡寫為pd |
---創建pandas中的DataFrame和Series--- | |
pd.DataFrame() | 創建 pandas DataFrame |
pd.Series() | 創建 pandas Series |
---數據選擇--- | |
df.column_name | 選取數據框的某一列,生成Series格式數據,df為數據框,column_name為列名 |
df['column_name'] | 選取數據框的某一列,生成Series格式數據 |
df[['column_name']] | 選取數據框的列,生成DataFrame格式數據 |
df.loc[ ] | 使用行和列的標簽索引選取數據 |
df.iloc[ ] | 使用行和列的數值索引選取數據 |
---導入csv格式數據--- | |
pd.read_csv() | 在pandas中讀取csv文本格式數據 |
---觀察數據框--- | |
df.head() | 查看數據框df的前幾行數據 |
df.tail() | 查看數據框df的最后幾行數據 |
df.info() | 獲取數據框df的信息 |
df.describe() | 獲取數據框df的各項統計值 |
df.index | 查看數據框df的行索引 |
df.columns | 查看數據框df的列名 |
df.shape | 查看數據框df的形狀,行數和列數 |
---Series數據的一些統計分析函數--- | |
se.unique() | 獲取Series數據中的數值種類,一般用于分類數據,這里se為Series格式數據 |
se.value_counts() | 統計Series數據中的數值種類及其對應的數據個數 |
se.mean() | 計算Series數據的均值 |
se.std() | 計算Series數據的標準差 |
se.median() | 計算Series數據的中位數 |
se.max() | 計算Series數據的最大值 |
se.min() | 計算Series數據的最小值 |
se.count() | 計算Series數據的個數 |
---pandas繪圖函數--- | |
df.plot(kind='scatter', x= , y= ) | 繪制散點圖 |
df.plot(kind='box') | 繪制箱圖 |
df.boxplot(by='column_name') | 繪制箱圖,并按 column_name 這一列的分類數值進行分組 |
groupby | 數據的分組 |
數據的聚合 | |
內置函數 | count、mean、sum、max |
自定義函數 | agg:將一組數據聚合成標量的形式 |
自定義函數 | apply:將多組數據聚合運算 |
def 函數名(參數): | |
函數體 | |
return 函數命令 | 自定義函數 |