要進行數(shù)據(jù)分析的前提就是要獲取數(shù)據(jù)和導(dǎo)入數(shù)據(jù),獲取數(shù)據(jù)的方法有很多,這個不是我們要講的這個系列的內(nèi)容,在以后在說。
我們現(xiàn)在先來學(xué)習(xí)讀取導(dǎo)入數(shù)據(jù)的方法。
Python可以讀取的數(shù)據(jù)文件格式有:文本文件數(shù)據(jù)txt和csv,電子表格Excel,統(tǒng)計軟件生成的數(shù)據(jù)文件SAS和SPSS,數(shù)據(jù)庫文件MySQL和NoSQL等這些常用的數(shù)據(jù)格式文件。
1、文本文件的數(shù)據(jù)
txt:
讀取txt文件有pd.read_table,第一個參數(shù)的文件的路徑,第二個sep是指定的分隔符,encoding是指定文本的編碼格式,如果出現(xiàn)亂碼只要把文本另存為utf-8的編碼格式就可以。
csv:
csv是一個很常用的數(shù)據(jù)文件格式,存儲量要比Excel大,是都好分隔符文件。pd.read_csv函數(shù)有20多個參數(shù),具體的可以查看幫助文檔help(pandas.read_csv)。
2、讀取電子表格
電子表格就是Excel表格,其文件格式有xls和xlsx兩種。
Excel表格文件的讀取用的是pd.read_excel,參數(shù)跟文檔文檔的差不多。
3、讀取統(tǒng)計軟件生成的數(shù)據(jù)文件
SAS:
SPSS:
關(guān)于讀取SPSS數(shù)據(jù)文件,需要為您的Python安裝savReaderWriter模塊,該模塊可以到如下鏈接進行下載并安裝:https://pypi.python.org/pypi/savReaderWriter/3.4.2。
安裝savReaderWriter模塊
可以通過該命令進行savReaderWriter模塊的安裝:python setup.py install
4、讀取數(shù)據(jù)庫數(shù)據(jù)
企業(yè)中更多的數(shù)據(jù)還是存放在諸如MySQL、SQL Server、DB2等數(shù)據(jù)庫中,因此這個讀取方法也是非常重要的。
連接MySQL:
MySQL文件的讀取連接用到的是pymysql模塊,該模塊可以偽裝成MySQLdb模塊進行讀取數(shù)據(jù)。