python學習:pandas學習筆記(二)

本次筆記內容:

  • data frame的行/列selection, index使用方法
  • 對data frame中元素進行批量操作(刪除行/列,基于其他列添加新列等)

首先需要將表格數據(.csv, .txt, .tab, .xls, 等)導入pandas進行處理,導入時指定的參數不同,則其行列的index定義不同,會對后續的行列selection造成影響。
以路徑/home/username/data/下的file.csv為例,

import pandas as pd
df = pd.read_csv('/home/username/data/file.csv',sep='\t')
df.head(5)
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', index_col = 0, header = 0)

使用默認參數得到的data frame為列名作為列的index, 行數作為行的index, 使用col_index = 0則規定行名為第一列,header = 0則規定列名為第一行。以及header = None指定沒有列名。output如下所示:

根據數據類型來選擇相應的打開方式,一般在數據分析之前,對數據進行預處理,行為各樣本(sample)信息,列為各特征信息(feature)。

在使用df['']這樣默認方式選擇時,需要注意:
df[' '] 是默認選擇列
df['':'']是默認選擇行的slicing

import pandas as pd
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', col_index = 0, header = 0)
df1['S_0001']
df1['gender':'activity_time/h']

output如下所示。

data frame的行/列selection, index使用方法

  1. 使用df.iloc: 使用integer數字選擇行列
  2. 使用df.loc: 使用index/label行列名稱選擇
  3. 使用df.ix: 可以使用integer也可以使用index/label

1. 使用df.iloc
需要知道想要選擇的行列位置,如第幾列第幾行。

import pandas as pd
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', col_index = 0, header = 0)
## 選擇規則: df.iloc[[用于選擇行的integer],[用于選擇列的integer]]
df1 = df1.iloc[[0,2],]   # 選擇df1中的0、2兩行
df1 = df1.iloc[[0,2],1:]  # 選擇df1中的0、2兩行,從第1列開始的后面所有列。注意使用:這樣的slicing則不用括在[]中

output如下所示:

2. 使用df.loc
data frame需要有index存在,因為它基于index來進行選擇行列。如果沒有,需要用.set_index來設置index

df.set_index('col_name', inplace=True)

使用df.loc來選擇行列,可以指定需要的行列名稱(index)來選擇,也可以籍此設置一些選擇條件(邏輯語句:Boolean / Logical indexing ),用于初步篩選數據。例如選擇gender這個feature為M的所有數據,選擇某個feature大于某個數字的所有數據等。

import pandas as pd
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', col_index = 0, header = 0)
## 選擇規則: df.loc[[用于選擇行的index],[用于選擇列的label]]
df1 = df1.T # 處理成sample-行, feature--列的形式
df1 = df1.loc[['S_0001','S_0002'],'gender':] # 選擇df1中的S_0001,S_0002兩行(sample), 選擇gender及其后所有的列(feature)
print df1['gender']
df1.loc[df1['gender'] == 'M', 'smoking'] # 選擇feature為gender的samples, 查看feature中smoking的情況: 男性sample中吸煙狀況如何?
df1.loc[:,'S_0002':]    # 選擇S_0002及其后所有的columns,注意冒號的使用
df[['S_0001','S_0002']] # 如果選擇多個不連續的column, 可以這樣選擇
list = ['S_0001','S_0002']
df[list]                # 同上是一樣的結果

## 需要注意的是,如果在column的選擇中沒有使用list, 即str: 'smoking', 則得到的數據形式為Series. 
## 如果使用list, ['smoking'], 則得到單列的data frame

output如下所示

3. 使用df.ix
只有當data frame的index不是Integer的時候才可以使用,且其行列的指定可以為integer和index混合的。但是目前0.20.1版本之后的pandas都不再使用.ix的用法了,integer和index還是各用各的選擇方法比較保險。

import pandas as pd
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', col_index = 0, header = 0)
## 選擇規則: df.ix[[用于選擇行的integer/index],[用于選擇列的integer/index]]
df1.ix[['S_0001','S_0002'],'gender':]
df1.ix[[0,2],2:]
df1.ix[[0,2],'smoking':]

output如下所示

對data frame中元素進行批量操作(加和,基于其他列添加新列等)
獲取行名(index),列名(columns),并且查看Index的情況,如有無重復
刪除行/列
插入行/列

import pandas as pd
df1 = pd.read_csv('/home/username/data/file.csv', sep='\t', col_index = 0, header = 0)
df1.columns.tolist() # 獲取列名,轉化為List
df1.index.values # 獲取行名,轉化為numpy中的arrary
df1.index.has_duplicates # 行名是否有重復。返回True/False

###刪除行/列###
df1.drop(['group','gender'], axis=0) # 按照row_name刪除行, 不加axis參數則默認刪除行
df1.drop(['S_0001','S_0002'],axis=1) # 按照col_name刪除列
df1.drop(df1.index[[0,2]], axis=0) # 按照"第幾行?"刪除行,其row的index必須非0
df1.drop(df1.columns[[0,2]], axis=1) # 按照"第幾列?"刪除列,其column的index必須非0

###更改行/列名###
df1.rename(index = {'sleep_score': 'sleep_hour', 'smoking': 'smoking_status'}, inplace= True) 
# 更改行名: df.reanme(index = {'old_name':'new_name'},inplace= True)
df1.rename(columns = {'S_0001': 's_0001'}, inplace = True)
# 更改列名: 將index換為columns

###插入新的行/列###
## 比如要生成新的一列,根據sleep_score的數值,生成新的一列sleep_status. 規定低于8小時為short, 8小時為normal, 8小時以上為long.
#這里使用行為sample_id, 列為feature的df1
def sleep(i):
  if float(i) < 8:
    return 'short'
  elif float(i) == 8:
    return 'normal'
  elif float(i) > 8:
    return 'long'
  else:
    return 'others'
df1['sleep_status'] = df1['sleep_score'].apply(lambda x: sleep(x))
print df1
# df1['sleep_score'].apply(lambda x: sleep(x))基于df1['sleep_score'],apply sleep()函數,生成一個新的列
# (lambda x: sleep(x)) 即輸入參數為x, 返回sleep(x)值

output如下所示。(只是寫函數不想用ipython而已)

根據某一列數值來slicing dataframe

# 比方說p這個dataframe有一個column叫object, 現在要slicing出object在object_in這個List中的行
object_in = ["a" , "b" , "c", "d"]
p_selected = p.loc[p['object'].isin(object_in),:]
p_selected = p.loc[~p['object'].isin(object_in),:]
# 就是除了object_in之外的
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380