1、查詢/切換操作目錄
Python有默認執行的操作目錄,可以用以下代碼進行操作目錄切換。
import os
>>> import os
>>> os.chdir(路徑) #切換操作目錄
>>> os.getcwd() #獲取當前的工作目錄
2、路徑的表達方式
三種:
1. ”c:\\path\\data.txt” #雙斜杠
2. r”c:\path\data.txt” #用r,就直接正常復制路徑就可以。
3. “data.txt” #如果文件就在當前工作目錄下,直接寫文件名就可以。
3、文件讀取
(1) open 和 withopen
open()的操作如下:
file_path = ’c:\\path\\data.txt‘
f = open(file_path,'r')
print (f.read())
f.close() #open操作以后,一定要close,這是跟withopen最大的區別
withopen()的操作如下:
file_path = ’c:\\path\\data.txt‘
withopen(file_path,'r') as f: #記住此處要有冒號
print (f.read())
推薦使用 withopen 方法。
(2)read() 、readline() 和readlines()
read():
該函數會一次性讀取文件的全部內容,如果能確保文件的大小,自然可以。但若文件過大,內存就爆了(如果文件大小>2倍內存則有問題),所以,可以反復調用read(size)方法,每次最多讀取size個字節的內容。如果數據是中文,由于一個中文會占多個字節,故read(size) 部分會亂碼.
返回的是str。
readline():
該函數每次只讀取一行內容,返回的也是str。
readlines():
可以一次讀取所有內容,并按行返回list。所以,應該它是最常用的。readlines(數字),則不知道表示什么,以后再研究。
(3)利用pandas讀取數據(主要采用的方法)
包括read_csv、read_table、read_excel、read_sql等,但是沒有read_txt,txt文件一般就用read_table讀取了。
基本操作:
import pandas as pd
data = pd.read_table('data.txt') #讀取數據,默認將第一行作為標簽
data = pd.read_table('data.txt',names=['miles','times','p','likes']) #如果數據沒有變量名,需要添加,則使用names方法。
data.head() #顯示數據的前五行
主要參數設置介紹:
sep 用于設置數據分割,在read_table中默認的是'\t',空格;在read_csv中默認是',',逗號
header ,int or list of ints,表示選擇第幾行作為表頭,如果是第n行,則前面n-1行數據去掉。如果數據中沒有變量名,可以寫為header=None,則把所有的行都作為數據。
names 用于設置變量名,具體用法參考上面,如果不設置,默認第一行。
還可以采用.columns來為設置變量名,如
df.columns = ['a','b','c','d']
本文只介紹了常用的一些函數,更具體的可以參考:pandas關于數據輸入輸出I/O的官方說明文檔,各種函數和變量解釋更為詳細。