pandas專門為處理表格和混雜數據設計
import pandas as pd
from pandas import Series,DataFrame
5.1 pandas數據結構
Series 類似于一維數組+索引
data = pd.Series([1,2,3,4,5]) 生成Series數據
data.values data.index
pd.Series([1,2],index = ['a','b']) 設置索引
data['a'] 通過索引選取Series中單個或一組值
data[data%2==0] 進行類似numpy數組的運算index仍會保留
'a' in data
pd.Series(python字典) 可以通過python字典創建Series
可以通過設置index改變Series元素順序
缺失值用NaN表示
pd.isnull(data) 檢測缺失數據
pd.notnull
data1 + data2 可以根據索引自動對齊數據進行運算,類似join操作
data.name data.index.name 可賦值
index可以通過賦值方式修改
pd.DataFrame(XXX)傳入元素為等長列表或np數組組成的字典可以生成DataFrame數據,字典key值為列名
frame.head() 前五行
pd.DataFrame(XXX, columns = [xxx], index = [xxxxx]) 可能產生NaN
frame['a'] 取列名為a的一列數據 等價于 frame.a(此時a需要是合理的變量名) 可以以列表形式取多列數據 返回的Series序列索引與原DataFrame相同
frame.loc[0] 行選取
可以用一個Series/值對某列賦值,需要長度相等
對不存在的列賦值可創建新列
del frame[列名] 刪除列
通過索引方式返回數據視圖,修改此返回數據也會影響源數據,Series.copy()可以創建副本
嵌套字典傳給DataFrame,外層字典的鍵作為列名,內層鍵作為行索引
frame.T 轉置
frame.columns.name frame.index.name
frame.values
index對象不可更改
不可變可以使Index對象在多個數據結構之間安全共享
labels = pd.Index(np.arange(3))
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2.index is labels→True
in操作可以用于index對象 查看某元素是否屬于index對象
index對象可以包含重復的標簽
5.2 基本功能
重新索引
frame.reindex(新索引列表) 根據新索引重排,若索引值當前不存在則NaN
列可以用columns關鍵字重新索引
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill') ffill實現前向值填充
reindex可以修改(行)索引和列。只傳遞一個序列時,會重新索引結果的行,列可以用columns關鍵字重新索引
series.drop(索引列表) 刪除Series行
frame.drop(行索引列表) 刪除行
frame.drop(列名列表, axis=1) 刪除列
frame..drop('c', inplace=True) 原地更改對象
索引、選取和過濾
Series索引
series(索引列表/數值范圍切片) 選取對應元素