Python 基本操作-文件/數據讀取

1、查詢/切換操作目錄

Python有默認執行的操作目錄,可以用以下代碼進行操作目錄切換。

import os          
>>> import os
>>> os.chdir(路徑)  #切換操作目錄
>>> os.getcwd()     #獲取當前的工作目錄

2、路徑的表達方式

三種:

1.  ”c:\\path\\data.txt”     #雙斜杠
2.  r”c:\path\data.txt”      #用r,就直接正常復制路徑就可以。
3.  “data.txt”               #如果文件就在當前工作目錄下,直接寫文件名就可以。

3、文件讀取

(1) open 和 withopen

open()的操作如下:

file_path = ’c:\\path\\data.txt‘
f = open(file_path,'r')
print (f.read())
f.close()             #open操作以后,一定要close,這是跟withopen最大的區別

withopen()的操作如下:

file_path = ’c:\\path\\data.txt‘
withopen(file_path,'r') as f:  #記住此處要有冒號
print (f.read())

推薦使用 withopen 方法。

(2)read() 、readline() 和readlines()

read():
該函數會一次性讀取文件的全部內容,如果能確保文件的大小,自然可以。但若文件過大,內存就爆了(如果文件大小>2倍內存則有問題),所以,可以反復調用read(size)方法,每次最多讀取size個字節的內容。如果數據是中文,由于一個中文會占多個字節,故read(size) 部分會亂碼.
返回的是str。

readline():
該函數每次只讀取一行內容,返回的也是str。

readlines():
可以一次讀取所有內容,并按行返回list。所以,應該它是最常用的。readlines(數字),則不知道表示什么,以后再研究

(3)利用pandas讀取數據(主要采用的方法)

包括read_csv、read_table、read_excel、read_sql等,但是沒有read_txt,txt文件一般就用read_table讀取了。

基本操作:

import pandas as pd
data = pd.read_table('data.txt')         #讀取數據,默認將第一行作為標簽
data = pd.read_table('data.txt',names=['miles','times','p','likes'])  #如果數據沒有變量名,需要添加,則使用names方法。
data.head()                              #顯示數據的前五行

主要參數設置介紹:
sep 用于設置數據分割,在read_table中默認的是'\t',空格;在read_csv中默認是',',逗號
header ,int or list of ints,表示選擇第幾行作為表頭,如果是第n行,則前面n-1行數據去掉。如果數據中沒有變量名,可以寫為header=None,則把所有的行都作為數據。
names 用于設置變量名,具體用法參考上面,如果不設置,默認第一行。

還可以采用.columns來為設置變量名,如

df.columns = ['a','b','c','d']

參考:pandas.read_csv參數詳解

Python數據分析Pandas04本地數據的導入導出

本文只介紹了常用的一些函數,更具體的可以參考:pandas關于數據輸入輸出I/O的官方說明文檔,各種函數和變量解釋更為詳細。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容