《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章準(zhǔn)備工作

本文是跟隨學(xué)習(xí)，原文鏈接在《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章準(zhǔn)備工作
為避免原鏈接失效，特轉(zhuǎn)載一份保存。中間可能會(huì)根據(jù)學(xué)習(xí)情況略有改動(dòng)。

第1章準(zhǔn)備工作
第2章 Python語法基礎(chǔ)，IPython和Jupyter Notebooks
第3章 Python的數(shù)據(jù)結(jié)構(gòu)、函數(shù)和文件
 第4章 NumPy基礎(chǔ)：數(shù)組和矢量計(jì)算
 第5章 pandas入門
 第6章數(shù)據(jù)加載、存儲(chǔ)與文件格式
 第7章數(shù)據(jù)清洗和準(zhǔn)備
 第8章數(shù)據(jù)規(guī)整：聚合、合并和重塑
 第9章繪圖和可視化
 第10章數(shù)據(jù)聚合與分組運(yùn)算
 第11章時(shí)間序列
 第12章 pandas高級(jí)應(yīng)用
 第13章 Python建模庫介紹
 第14章數(shù)據(jù)分析案例
 附錄A NumPy高級(jí)應(yīng)用
 附錄B 更多關(guān)于IPython的內(nèi)容（完）

image

下載本書：http://www.lxweimin.com/p/fad9e41c1a42

GitHub（歡迎提pull request，GitHub上的md文件可以用來自制電子書，pdf、mobi、epub格式的都行）：
https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_version

GitBook（有錨點(diǎn)功能）：
https://seancheney.gitbook.io/python-for-data-analysis-2nd/

下載本書代碼：https://github.com/wesm/pydata-book（建議把代碼下載下來之后，安裝好Anaconda 3.6，在目錄文件夾中用Jupyter notebook打開）

本書是2017年10月20號(hào)正式出版的，和第1版的不同之處有：

包括Python教程內(nèi)的所有代碼升級(jí)為Python 3.6（第1版使用的是Python 2.7）
更新了Anaconda和其它包的Python安裝方法
更新了Pandas為2017最新版
新增了一章，關(guān)于更高級(jí)的Pandas工具，外加一些tips
簡(jiǎn)要介紹了使用StatsModels和scikit-learn

對(duì)有些內(nèi)容進(jìn)行了重新排版。（譯者注1：最大的改變是把第1版附錄中的Python教程，單列成了現(xiàn)在的第2章和第3章，并且進(jìn)行了擴(kuò)充。可以說，本書第2版對(duì)新手更為友好了！）

（譯者注2：毫無疑問，本書是學(xué)習(xí)Python數(shù)據(jù)分析最好的參考書（另一本不錯(cuò)的是《Pandas Cookbook》、《Pandas 1.x Cookbook · 第二版》）。本來想把書名直接譯為《Python數(shù)據(jù)分析》，這樣更簡(jiǎn)短。但是為了尊重第1版的翻譯，考慮到繼承性，還是用老書名。這樣讀過第一版的老讀者可以方便的用之前的書名檢索到第二版。作者在寫第二版的時(shí)候，有些文字是照搬第一版的。所以第二版的翻譯也借鑒copy了第一版翻譯：即，如果第二版中有和第一版相同的文字，則copy第一版的中文譯本，覺得不妥的地方會(huì)稍加修改，剩下的不同的內(nèi)容就自己翻譯。這樣做也是為讀過第一版的老讀者考慮——相同的內(nèi)容可以直接跳過。）

1.1 本書的內(nèi)容

本書講的是利用Python進(jìn)行數(shù)據(jù)控制、處理、整理、分析等方面的具體細(xì)節(jié)和基本要點(diǎn)。我的目標(biāo)是介紹Python編程和用于數(shù)據(jù)處理的庫和工具環(huán)境，掌握這些，可以讓你成為一個(gè)數(shù)據(jù)分析專家。雖然本書的標(biāo)題是“數(shù)據(jù)分析”，重點(diǎn)卻是Python編程、庫，以及用于數(shù)據(jù)分析的工具。這就是數(shù)據(jù)分析要用到的Python編程。

什么樣的數(shù)據(jù)？

當(dāng)書中出現(xiàn)“數(shù)據(jù)”時(shí)，究竟指的是什么呢？主要指的是結(jié)構(gòu)化數(shù)據(jù)（structured data），這個(gè)故意含糊其辭的術(shù)語代指了所有通用格式的數(shù)據(jù)，例如：

表格型數(shù)據(jù)，其中各列可能是不同的類型（字符串、數(shù)值、日期等）。比如保存在關(guān)系型數(shù)據(jù)庫中或以制表符/逗號(hào)為分隔符的文本文件中的那些數(shù)據(jù)。
多維數(shù)組（矩陣）。
通過關(guān)鍵列（對(duì)于SQL用戶而言，就是主鍵和外鍵）相互聯(lián)系的多個(gè)表。
間隔平均或不平均的時(shí)間序列。

這絕不是一個(gè)完整的列表。大部分?jǐn)?shù)據(jù)集都能被轉(zhuǎn)化為更加適合分析和建模的結(jié)構(gòu)化形式，雖然有時(shí)這并不是很明顯。如果不行的話，也可以將數(shù)據(jù)集的特征提取為某種結(jié)構(gòu)化形式。例如，一組新聞文章可以被處理為一張?jiān)~頻表，而這張?jiān)~頻表就可以用于情感分析。

大部分電子表格軟件（比如Microsoft Excel，它可能是世界上使用最廣泛的數(shù)據(jù)分析工具了）的用戶不會(huì)對(duì)此類數(shù)據(jù)感到陌生。

1.2 為什么要使用Python進(jìn)行數(shù)據(jù)分析

許許多多的人（包括我自己）都很容易愛上Python這門語言。自從1991年誕生以來，Python現(xiàn)在已經(jīng)成為最受歡迎的動(dòng)態(tài)編程語言之一，其他還有Perl、Ruby等。由于擁有大量的Web框架（比如Rails（Ruby）和Django（Python）），自從2005年，使用Python和Ruby進(jìn)行網(wǎng)站建設(shè)工作非常流行。這些語言常被稱作腳本（scripting）語言，因?yàn)樗鼈兛梢杂糜诰帉懞?jiǎn)短而粗糙的小程序（也就是腳本）。我個(gè)人并不喜歡“腳本語言”這個(gè)術(shù)語，因?yàn)樗孟裨谡f這些語言無法用于構(gòu)建嚴(yán)謹(jǐn)?shù)能浖Ｔ诒姸嘟忉屝驼Z言中，由于各種歷史和文化的原因，Python發(fā)展出了一個(gè)巨大而活躍的科學(xué)計(jì)算（scientific computing）社區(qū)。在過去的10年，Python從一個(gè)邊緣或“自擔(dān)風(fēng)險(xiǎn)”的科學(xué)計(jì)算語言，成為了數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、學(xué)界和工業(yè)界軟件開發(fā)最重要的語言之一。

在數(shù)據(jù)分析、交互式計(jì)算以及數(shù)據(jù)可視化方面，Python將不可避免地與其他開源和商業(yè)的領(lǐng)域特定編程語言/工具進(jìn)行對(duì)比，如R、MATLAB、SAS、Stata等。近年來，由于Python的庫（例如pandas和scikit-learn）不斷改良，使其成為數(shù)據(jù)分析任務(wù)的一個(gè)優(yōu)選方案。結(jié)合其在通用編程方面的強(qiáng)大實(shí)力，我們完全可以只使用Python這一種語言構(gòu)建以數(shù)據(jù)為中心的應(yīng)用。

Python作為膠水語言

Python成為成功的科學(xué)計(jì)算工具的部分原因是，它能夠輕松地集成C、C++以及Fortran代碼。大部分現(xiàn)代計(jì)算環(huán)境都利用了一些Fortran和C庫來實(shí)現(xiàn)線性代數(shù)、優(yōu)選、積分、快速傅里葉變換以及其他諸如此類的算法。許多企業(yè)和國家實(shí)驗(yàn)室也利用Python來“粘合”那些已經(jīng)用了多年的遺留軟件系統(tǒng)。

大多數(shù)軟件都是由兩部分代碼組成的：少量需要占用大部分執(zhí)行時(shí)間的代碼，以及大量不經(jīng)常執(zhí)行的“膠水代碼”。大部分情況下，膠水代碼的執(zhí)行時(shí)間是微不足道的。開發(fā)人員的精力幾乎都是花在優(yōu)化計(jì)算瓶頸上面，有時(shí)更是直接轉(zhuǎn)用更低級(jí)的語言（比如C）。

解決“兩種語言”問題

很多組織通常都會(huì)用一種類似于領(lǐng)域特定的計(jì)算語言（如SAS和R）對(duì)新想法做研究、原型構(gòu)建和測(cè)試，然后再將這些想法移植到某個(gè)更大的生產(chǎn)系統(tǒng)中去（可能是用Java、C#或C++編寫的）。人們逐漸意識(shí)到，Python不僅適用于研究和原型構(gòu)建，同時(shí)也適用于構(gòu)建生產(chǎn)系統(tǒng)。為什么一種語言就夠了，卻要使用兩個(gè)語言的開發(fā)環(huán)境呢？我相信越來越多的企業(yè)也會(huì)這樣看，因?yàn)檠芯咳藛T和工程技術(shù)人員使用同一種編程工具將會(huì)給企業(yè)帶來非常顯著的組織效益。

為什么不選Python

雖然Python非常適合構(gòu)建分析應(yīng)用以及通用系統(tǒng)，但它對(duì)不少應(yīng)用場(chǎng)景適用性較差。

由于Python是一種解釋型編程語言，因此大部分Python代碼都要比用編譯型語言（比如Java和C++）編寫的代碼運(yùn)行慢得多。由于程序員的時(shí)間通常都比CPU時(shí)間值錢，因此許多人也愿意對(duì)此做一些取舍。但是，在那些延遲要求非常小或高資源利用率的應(yīng)用中（例如高頻交易系統(tǒng)），耗費(fèi)時(shí)間使用諸如C++這樣更低級(jí)、更低生產(chǎn)率的語言進(jìn)行編程也是值得的。

對(duì)于高并發(fā)、多線程的應(yīng)用程序而言（尤其是擁有許多計(jì)算密集型線程的應(yīng)用程序），Python并不是一種理想的編程語言。這是因?yàn)镻ython有一個(gè)叫做全局解釋器鎖（Global Interpreter Lock，GIL）的組件，這是一種防止解釋器同時(shí)執(zhí)行多條Python字節(jié)碼指令的機(jī)制。有關(guān)“為什么會(huì)存在GIL”的技術(shù)性原因超出了本書的范圍。雖然很多大數(shù)據(jù)處理應(yīng)用程序?yàn)榱四茉谳^短的時(shí)間內(nèi)完成數(shù)據(jù)集的處理工作都需要運(yùn)行在計(jì)算機(jī)集群上，但是仍然有一些情況需要用單進(jìn)程多線程系統(tǒng)來解決。

這并不是說Python不能執(zhí)行真正的多線程并行代碼。例如，Python的C插件使用原生的C或C++的多線程，可以并行運(yùn)行而不被GIL影響，只要它們不頻繁地與Python對(duì)象交互。

1.3 重要的Python庫

考慮到那些還不太了解Python科學(xué)計(jì)算生態(tài)系統(tǒng)和庫的讀者，下面我先對(duì)各個(gè)庫做一個(gè)簡(jiǎn)單的介紹。

NumPy

NumPy（Numerical Python的簡(jiǎn)稱）是Python科學(xué)計(jì)算的基礎(chǔ)包。本書大部分內(nèi)容都基于NumPy以及構(gòu)建于其上的庫。它提供了以下功能（不限于此）：

快速高效的多維數(shù)組對(duì)象ndarray。
用于對(duì)數(shù)組執(zhí)行元素級(jí)計(jì)算以及直接對(duì)數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù)。
用于讀寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具。
線性代數(shù)運(yùn)算、傅里葉變換，以及隨機(jī)數(shù)生成。
-成熟的C API，用于Python插件和原生C、C++、Fortran代碼訪問NumPy的數(shù)據(jù)結(jié)構(gòu)和計(jì)算工具。

除了為Python提供快速的數(shù)組處理能力，NumPy在數(shù)據(jù)分析方面還有另外一個(gè)主要作用，即作為在算法和庫之間傳遞數(shù)據(jù)的容器。對(duì)于數(shù)值型數(shù)據(jù)，NumPy數(shù)組在存儲(chǔ)和處理數(shù)據(jù)時(shí)要比內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效得多。此外，由低級(jí)語言（比如C和Fortran）編寫的庫可以直接操作NumPy數(shù)組中的數(shù)據(jù)，無需進(jìn)行任何數(shù)據(jù)復(fù)制工作。因此，許多Python的數(shù)值計(jì)算工具要么使用NumPy數(shù)組作為主要的數(shù)據(jù)結(jié)構(gòu)，要么可以與NumPy進(jìn)行無縫交互操作。

pandas

pandas提供了快速便捷處理結(jié)構(gòu)化數(shù)據(jù)的大量數(shù)據(jù)結(jié)構(gòu)和函數(shù)。自從2010年出現(xiàn)以來，它助使Python成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境。本書用得最多的pandas對(duì)象是DataFrame，它是一個(gè)面向列（column-oriented）的二維表結(jié)構(gòu)，另一個(gè)是Series，一個(gè)一維的標(biāo)簽化數(shù)組對(duì)象。

pandas兼具NumPy高性能的數(shù)組計(jì)算功能以及電子表格和關(guān)系型數(shù)據(jù)庫（如SQL）靈活的數(shù)據(jù)處理功能。它提供了復(fù)雜精細(xì)的索引功能，能更加便捷地完成重塑、切片和切塊、聚合以及選取數(shù)據(jù)子集等操作。因?yàn)閿?shù)據(jù)操作、準(zhǔn)備、清洗是數(shù)據(jù)分析最重要的技能，pandas是本書的重點(diǎn)。

作為背景，我是在2008年初開始開發(fā)pandas的，那時(shí)我任職于AQR Capital Management，一家量化投資管理公司，我有許多工作需求都不能用任何單一的工具解決：

有標(biāo)簽軸的數(shù)據(jù)結(jié)構(gòu)，支持自動(dòng)或清晰的數(shù)據(jù)對(duì)齊。這可以防止由于數(shù)據(jù)不對(duì)齊，或處理來源不同的索引不同的數(shù)據(jù)，所造成的錯(cuò)誤。
集成時(shí)間序列功能。
相同的數(shù)據(jù)結(jié)構(gòu)用于處理時(shí)間序列數(shù)據(jù)和非時(shí)間序列數(shù)據(jù)。
保存元數(shù)據(jù)的算術(shù)運(yùn)算和壓縮。
靈活處理缺失數(shù)據(jù)。
合并和其它流行數(shù)據(jù)庫（例如基于SQL的數(shù)據(jù)庫）的關(guān)系操作。

我想只用一種工具就實(shí)現(xiàn)所有功能，并使用通用軟件開發(fā)語言。Python是一個(gè)不錯(cuò)的候選語言，但是此時(shí)沒有集成的數(shù)據(jù)結(jié)構(gòu)和工具來實(shí)現(xiàn)。我一開始就是想把pandas設(shè)計(jì)為一款適用于金融和商業(yè)分析的工具，pandas專注于深度時(shí)間序列功能和工具，適用于時(shí)間索引化的數(shù)據(jù)。

對(duì)于使用R語言進(jìn)行統(tǒng)計(jì)計(jì)算的用戶，肯定不會(huì)對(duì)DataFrame這個(gè)名字感到陌生，因?yàn)樗醋杂赗的data.frame對(duì)象。但與Python不同，data frames是構(gòu)建于R和它的標(biāo)準(zhǔn)庫。因此，pandas的許多功能不屬于R或它的擴(kuò)展包。

pandas這個(gè)名字源于panel data（面板數(shù)據(jù)，這是多維結(jié)構(gòu)化數(shù)據(jù)集在計(jì)量經(jīng)濟(jì)學(xué)中的術(shù)語）以及Python data analysis（Python數(shù)據(jù)分析）。

matplotlib

matplotlib是最流行的用于繪制圖表和其它二維數(shù)據(jù)可視化的Python庫。它最初由John D.Hunter（JDH）創(chuàng)建，目前由一個(gè)龐大的開發(fā)團(tuán)隊(duì)維護(hù)。它非常適合創(chuàng)建出版物上用的圖表。雖然還有其它的Python可視化庫，matplotlib卻是使用最廣泛的，并且它和其它生態(tài)工具配合也非常完美。我認(rèn)為，可以使用它作為默認(rèn)的可視化工具。

IPython和Jupyter

IPython項(xiàng)目起初是Fernando Pérez在2001年的一個(gè)用以加強(qiáng)和Python交互的子項(xiàng)目。在隨后的16年中，它成為了Python數(shù)據(jù)棧最重要的工具之一。雖然IPython本身沒有提供計(jì)算和數(shù)據(jù)分析的工具，它卻可以大大提高交互式計(jì)算和軟件開發(fā)的生產(chǎn)率。IPython鼓勵(lì)“執(zhí)行-探索”的工作流，區(qū)別于其它編程軟件的“編輯-編譯-運(yùn)行”的工作流。它還可以方便地訪問系統(tǒng)的shell和文件系統(tǒng)。因?yàn)榇蟛糠值臄?shù)據(jù)分析代碼包括探索、試錯(cuò)和重復(fù)，IPython可以使工作更快。

2014年，F(xiàn)ernando和IPython團(tuán)隊(duì)宣布了Jupyter項(xiàng)目，一個(gè)更寬泛的多語言交互計(jì)算工具的計(jì)劃。IPython web notebook變成了Jupyter notebook，現(xiàn)在支持40種編程語言。IPython現(xiàn)在可以作為Jupyter使用Python的內(nèi)核（一種編程語言模式）。

IPython變成了Jupyter龐大開源項(xiàng)目（一個(gè)交互和探索式計(jì)算的高效環(huán)境）中的一個(gè)組件。它最老也是最簡(jiǎn)單的模式，現(xiàn)在是一個(gè)用于編寫、測(cè)試、調(diào)試Python代碼的強(qiáng)化shell。你還可以使用通過Jupyter Notebook，一個(gè)支持多種語言的交互式網(wǎng)絡(luò)代碼“筆記本”，來使用IPython。IPython shell 和Jupyter notebooks特別適合進(jìn)行數(shù)據(jù)探索和可視化。

Jupyter notebooks還可以編寫Markdown和HTML內(nèi)容，它提供了一種創(chuàng)建代碼和文本的富文本方法。其它編程語言也在Jupyter中植入了內(nèi)核，好讓在Jupyter中可以使用Python以外的語言。

對(duì)我個(gè)人而言，我的大部分Python工作都要用到IPython，包括運(yùn)行、調(diào)試和測(cè)試代碼。

在本書的GitHub頁面，你可以找到包含各章節(jié)所有代碼實(shí)例的Jupyter notebooks。

SciPy

SciPy是一組專門解決科學(xué)計(jì)算中各種標(biāo)準(zhǔn)問題域的包的集合，主要包括下面這些包：

scipy.integrate：數(shù)值積分例程和微分方程求解器。
scipy.linalg：擴(kuò)展了由numpy.linalg提供的線性代數(shù)例程和矩陣分解功能。
scipy.optimize：函數(shù)優(yōu)化器（最小化器）以及根查找算法。
scipy.signal：信號(hào)處理工具。
scipy.sparse：稀疏矩陣和稀疏線性系統(tǒng)求解器。
scipy.special：SPECFUN（這是一個(gè)實(shí)現(xiàn)了許多常用數(shù)學(xué)函數(shù)（如伽瑪函數(shù)）的Fortran庫）的包裝器。
scipy.stats：標(biāo)準(zhǔn)連續(xù)和離散概率分布（如密度函數(shù)、采樣器、連續(xù)分布函數(shù)等）、各種統(tǒng)計(jì)檢驗(yàn)方法，以及更好的描述統(tǒng)計(jì)法。

NumPy和SciPy結(jié)合使用，便形成了一個(gè)相當(dāng)完備和成熟的計(jì)算平臺(tái)，可以處理多種傳統(tǒng)的科學(xué)計(jì)算問題。

scikit-learn

2010年誕生以來，scikit-learn成為了Python的通用機(jī)器學(xué)習(xí)工具包。僅僅七年，就匯聚了全世界超過1500名貢獻(xiàn)者。它的子模塊包括：

分類：SVM、近鄰、隨機(jī)森林、邏輯回歸等等。
回歸：Lasso、嶺回歸等等。
聚類：k-均值、譜聚類等等。
降維：PCA、特征選擇、矩陣分解等等。
選型：網(wǎng)格搜索、交叉驗(yàn)證、度量。
預(yù)處理：特征提取、標(biāo)準(zhǔn)化。

與pandas、statsmodels和IPython一起，scikit-learn對(duì)于Python成為高效數(shù)據(jù)科學(xué)編程語言起到了關(guān)鍵作用。雖然本書不會(huì)詳細(xì)講解scikit-learn，我會(huì)簡(jiǎn)要介紹它的一些模型，以及用其它工具如何使用這些模型。

statsmodels

statsmodels是一個(gè)統(tǒng)計(jì)分析包，起源于斯坦福大學(xué)統(tǒng)計(jì)學(xué)教授Jonathan Taylor，他設(shè)計(jì)了多種流行于R語言的回歸分析模型。Skipper Seabold和Josef Perktold在2010年正式創(chuàng)建了statsmodels項(xiàng)目，隨后匯聚了大量的使用者和貢獻(xiàn)者。受到R的公式系統(tǒng)的啟發(fā)，Nathaniel Smith發(fā)展出了Patsy項(xiàng)目，它提供了statsmodels的公式或模型的規(guī)范框架。

與scikit-learn比較，statsmodels包含經(jīng)典統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)計(jì)量學(xué)的算法。包括如下子模塊：

回歸模型：線性回歸，廣義線性模型，健壯線性模型，線性混合效應(yīng)模型等等。
方差分析（ANOVA）。
時(shí)間序列分析：AR，ARMA，ARIMA，VAR和其它模型。
非參數(shù)方法：核密度估計(jì)，核回歸。
統(tǒng)計(jì)模型結(jié)果可視化。

statsmodels更關(guān)注與統(tǒng)計(jì)推斷，提供不確定估計(jì)和參數(shù)p-值。相反的，scikit-learn注重預(yù)測(cè)。

同scikit-learn一樣，我也只是簡(jiǎn)要介紹statsmodels，以及如何用NumPy和pandas使用它。

1.4 安裝和設(shè)置

由于人們用Python所做的事情不同，所以沒有一個(gè)普適的Python及其插件包的安裝方案。由于許多讀者的Python科學(xué)計(jì)算環(huán)境都不能完全滿足本書的需要，所以接下來我將詳細(xì)介紹各個(gè)操作系統(tǒng)上的安裝方法。我推薦免費(fèi)的Anaconda安裝包。寫作本書時(shí)，Anaconda提供Python 2.7和3.6兩個(gè)版本，以后可能發(fā)生變化。本書使用的是Python 3.6，因此推薦選擇Python 3.6或更高版本。

Windows

要在Windows上運(yùn)行，先下載Anaconda安裝包。推薦跟隨Anaconda下載頁面的Windows安裝指導(dǎo)，安裝指導(dǎo)在寫作本書和讀者看到此文的的這段時(shí)間內(nèi)可能發(fā)生變化。

現(xiàn)在，來確認(rèn)設(shè)置是否正確。打開命令行窗口（cmd.exe），輸入python以打開Python解釋器。可以看到類似下面的Anaconda版本的輸出：

C:\Users\wesm>python
Python 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul  5 2016, 11:41:13)
[MSC v.1900 64 bit (AMD64)] on win32
>>>

要退出shell，按Ctrl-D（Linux或macOS上），Ctrl-Z（Windows上），或輸入命令exit()，再按Enter。

Apple (OS X, macOS)

下載OS X Anaconda安裝包，它的名字類似Anaconda3-4.1.0-MacOSX-x86_64.pkg。雙擊.pkg文件，運(yùn)行安裝包。安裝包運(yùn)行時(shí)，會(huì)自動(dòng)將Anaconda執(zhí)行路徑添加到.bash_profile文件，它位于/Users/$USER/.bash_profile。

為了確認(rèn)成功，在系統(tǒng)shell打開IPython：

$ ipython

要退出shell，按Ctrl-D，或輸入命令exit()，再按Enter。

GNU/Linux

Linux版本很多，這里給出Debian、Ubantu、CentOS和Fedora的安裝方法。安裝包是一個(gè)腳本文件，必須在shell中運(yùn)行。取決于系統(tǒng)是32位還是64位，要么選擇x86 (32位)或x86_64 (64位)安裝包。隨后你會(huì)得到一個(gè)文件，名字類似于Anaconda3-4.1.0-Linux-x86_64.sh。用bash進(jìn)行安裝：

$ bash Anaconda3-4.1.0-Linux-x86_64.sh

筆記：某些Linux版本在包管理器中有滿足需求的Python包，只需用類似apt的工具安裝就行。這里講的用Anaconda安裝，適用于不同的Linux安裝包，也很容易將包升級(jí)到最新版本。

接受許可之后，會(huì)向你詢問在哪里放置Anaconda的文件。我推薦將文件安裝到默認(rèn)的home目錄，例如/home/$USER/anaconda。

Anaconda安裝包可能會(huì)詢問你是否將bin/目錄添加到$PATH變量。如果在安裝之后有任何問題，你可以修改文件.bashrc（或.zshrc，如果使用的是zsh shell）為類似以下的內(nèi)容：

export PATH=/home/$USER/anaconda/bin:$PATH

做完之后，你可以開啟一個(gè)新窗口，或再次用~/.bashrc執(zhí)行.bashrc。

安裝或升級(jí)Python包

在你閱讀本書的時(shí)候，你可能想安裝另外的不在Anaconda中的Python包。通常，可以用以下命令安裝：

conda install package_name

如果這個(gè)命令不行，也可以用pip包管理工具：

pip install package_name

你可以用conda update命令升級(jí)包：

conda update package_name

pip可以用--upgrade升級(jí)：

pip install --upgrade package_name

本書中，你有許多機(jī)會(huì)嘗試這些命令。

注意：當(dāng)你使用conda和pip二者安裝包時(shí)，千萬不要用pip升級(jí)conda的包，這樣會(huì)導(dǎo)致環(huán)境發(fā)生問題。當(dāng)使用Anaconda或Miniconda時(shí)，最好首先使用conda進(jìn)行升級(jí)。

Python 2 和 Python 3

第一版的Python 3.x出現(xiàn)于2008年。它有一系列的變化，與之前的Python 2.x代碼有不兼容的地方。因?yàn)閺?991年P(guān)ython出現(xiàn)算起，已經(jīng)過了17年，Python 3 的出現(xiàn)被視為吸取一些列教訓(xùn)的更優(yōu)結(jié)果。

2012年，因?yàn)樵S多包還沒有完全支持Python 3，許多科學(xué)和數(shù)據(jù)分析社區(qū)還是在使用Python 2.x。因此，本書第一版使用的是Python 2.7。現(xiàn)在，用戶可以在Python 2.x和Python 3.x間自由選擇，二者都有良好的支持。

但是，Python 2.x在2020年就會(huì)到期（包括重要的安全補(bǔ)丁），因此再用Python 2.7就不是好的選擇了。因此，本書使用了Python 3.6，這一廣泛使用、支持良好的穩(wěn)定版本。我們已經(jīng)稱Python 2.x為“遺留版本”，簡(jiǎn)稱Python 3.x為“Python”。我建議你也是如此。

本書基于Python 3.6。你的Python版本也許高于3.6，但是示例代碼應(yīng)該是向前兼容的。一些示例代碼可能在Python 2.7上有所不同，或完全不兼容。

集成開發(fā)環(huán)境（IDEs）和文本編輯器

當(dāng)被問到我的標(biāo)準(zhǔn)開發(fā)環(huán)境，我?guī)缀蹩偸腔卮稹癐Python加文本編輯器”。我通常在編程時(shí)，反復(fù)在IPython或Jupyter notebooks中測(cè)試和調(diào)試每條代碼。也可以交互式操作數(shù)據(jù)，和可視化驗(yàn)證數(shù)據(jù)操作中某一特殊集合。在shell中使用pandas和NumPy也很容易。

但是，當(dāng)創(chuàng)建軟件時(shí)，一些用戶可能更想使用特點(diǎn)更為豐富的IDE，而不僅僅是原始的Emacs或Vim的文本編輯器。以下是一些IDE：

PyDev（免費(fèi)），基于Eclipse平臺(tái)的IDE；
JetBrains的PyCharm（商業(yè)用戶需要訂閱，開源開發(fā)者免費(fèi)）；
Visual Studio（Windows用戶）的Python Tools；
Spyder（免費(fèi)），Anaconda附帶的IDE；
Komodo IDE（商業(yè)）。

因?yàn)镻ython的流行，大多數(shù)文本編輯器，比如Atom和Sublime Text 3，對(duì)Python的支持也非常好。

1.5 社區(qū)和會(huì)議

除了在網(wǎng)上搜索，各式各樣的科學(xué)和數(shù)據(jù)相關(guān)的Python郵件列表是非常有幫助的，很容易獲得回答。包括：

pydata：一個(gè)Google群組列表，用以回答Python數(shù)據(jù)分析和pandas的問題；
pystatsmodels： statsmodels或pandas相關(guān)的問題；
scikit-learn和Python機(jī)器學(xué)習(xí)郵件列表，scikit-learn@python.org；
numpy-discussion：和NumPy相關(guān)的問題；
scipy-user：SciPy和科學(xué)計(jì)算的問題；

因?yàn)檫@些郵件列表的URLs可以很容易搜索到，但因?yàn)榭赡馨l(fā)生變化，所以沒有給出。

每年，世界各地會(huì)舉辦許多Python開發(fā)者大會(huì)。如果你想結(jié)識(shí)其他有相同興趣的人，如果可能的話，我建議你去參加一個(gè)。許多會(huì)議會(huì)對(duì)無力支付入場(chǎng)費(fèi)和差旅費(fèi)的人提供財(cái)力幫助。下面是一些會(huì)議：

PyCon和EuroPython：北美和歐洲的兩大Python會(huì)議；
SciPy和EuroSciPy：北美和歐洲兩大面向科學(xué)計(jì)算的會(huì)議；
PyData：世界范圍內(nèi)，一些列的地區(qū)性會(huì)議，專注數(shù)據(jù)科學(xué)和數(shù)據(jù)分析；
國際和地區(qū)的PyCon會(huì)議（http://pycon.org有完整列表）。

1.6 本書導(dǎo)航

如果之前從未使用過Python，那你可能需要先看看本書的第2章和第3章，我簡(jiǎn)要介紹了Python的特點(diǎn)，IPython和Jupyter notebooks。這些知識(shí)是為本書后面的內(nèi)容做鋪墊。如果你已經(jīng)掌握Python，可以選擇跳過。

接下來，簡(jiǎn)單地介紹了NumPy的關(guān)鍵特性，附錄A中是更高級(jí)的NumPy功能。然后，我介紹了pandas，本書剩余的內(nèi)容全部是使用pandas、NumPy和matplotlib處理數(shù)據(jù)分析的問題。我已經(jīng)盡量讓全書的結(jié)構(gòu)循序漸進(jìn)，但偶爾會(huì)有章節(jié)之間的交叉，有時(shí)用到的概念還沒有介紹過。

盡管讀者各自的工作任務(wù)不同，大體可以分為幾類：

與外部世界交互
閱讀編寫多種文件格式和數(shù)據(jù)存儲(chǔ)；
數(shù)據(jù)準(zhǔn)備
清洗、修改、結(jié)合、標(biāo)準(zhǔn)化、重塑、切片、切割、轉(zhuǎn)換數(shù)據(jù)，以進(jìn)行分析；
轉(zhuǎn)換數(shù)據(jù)
對(duì)舊的數(shù)據(jù)集進(jìn)行數(shù)學(xué)和統(tǒng)計(jì)操作，生成新的數(shù)據(jù)集（例如，通過各組變量聚類成大的表）；
建模和計(jì)算
將數(shù)據(jù)綁定統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)算法、或其他計(jì)算工具；
展示
創(chuàng)建交互式和靜態(tài)的圖表可視化和文本總結(jié)。

代碼示例

本書大部分代碼示例的輸入形式和輸出結(jié)果都會(huì)按照其在IPython shell或Jupyter notebooks中執(zhí)行時(shí)的樣子進(jìn)行排版：

In [5]: CODE EXAMPLE
Out[5]: OUTPUT

但你看到類似的示例代碼，就是讓你在in的部分輸入代碼，按Enter鍵執(zhí)行（Jupyter中是按Shift-Enter）。然后就可以在out看到輸出。

示例數(shù)據(jù)

各章的示例數(shù)據(jù)都存放在GitHub上：http://github.com/pydata/pydata-book。下載這些數(shù)據(jù)的方法有二：使用git版本控制命令行程序；直接從網(wǎng)站上下載該GitHub庫的zip文件。如果遇到了問題，可以到我的個(gè)人主頁，http://wesmckinney.com/，獲取最新的指導(dǎo)。

為了讓所有示例都能重現(xiàn)，我已經(jīng)盡我所能使其包含所有必需的東西，但仍然可能會(huì)有一些錯(cuò)誤或遺漏。如果出現(xiàn)這種情況的話，請(qǐng)給我發(fā)郵件：wesmckinn@gmail.com。報(bào)告本書錯(cuò)誤的最好方法是O’Reilly的errata頁面，http://www.bit.ly/pyDataAnalysis_errata。

引入慣例

Python社區(qū)已經(jīng)廣泛采取了一些常用模塊的命名慣例：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm

也就是說，當(dāng)你看到np.arange時(shí)，就應(yīng)該想到它引用的是NumPy中的arange函數(shù)。這樣做的原因是：在Python軟件開發(fā)過程中，不建議直接引入類似NumPy這種大型庫的全部?jī)?nèi)容（from numpy import *）。

行話

由于你可能不太熟悉書中使用的一些有關(guān)編程和數(shù)據(jù)科學(xué)方面的常用術(shù)語，所以我在這里先給出其簡(jiǎn)單定義：

數(shù)據(jù)規(guī)整（Munge/Munging/Wrangling）
指的是將非結(jié)構(gòu)化和（或）散亂數(shù)據(jù)處理為結(jié)構(gòu)化或整潔形式的整個(gè)過程。這幾個(gè)詞已經(jīng)悄悄成為當(dāng)今數(shù)據(jù)黑客們的行話了。Munge這個(gè)詞跟Lunge押韻。

偽代碼（Pseudocode）
算法或過程的“代碼式”描述，而這些代碼本身并不是實(shí)際有效的源代碼。

語法糖（Syntactic sugar）
這是一種編程語法，它并不會(huì)帶來新的特性，但卻能使代碼更易讀、更易寫。

作者：SeanCheney
鏈接：http://www.lxweimin.com/p/04d180d90a3f
來源：簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,363評(píng)論 6贊 532
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,497評(píng)論 3贊 416
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,305評(píng)論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,962評(píng)論 1贊 311
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 71,727評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,193評(píng)論 1贊 324
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,257評(píng)論 3贊 441
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,411評(píng)論 0贊 288
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,945評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,777評(píng)論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 42,978評(píng)論 1贊 369
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,519評(píng)論 5贊 359
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,216評(píng)論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,642評(píng)論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,878評(píng)論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,657評(píng)論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 47,960評(píng)論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章準(zhǔn)備工作

《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章準(zhǔn)備工作

1.1 本書的內(nèi)容

什么樣的數(shù)據(jù)？

1.2 為什么要使用Python進(jìn)行數(shù)據(jù)分析

Python作為膠水語言

解決“兩種語言”問題

為什么不選Python

1.3 重要的Python庫

NumPy

pandas

matplotlib

IPython和Jupyter

SciPy

scikit-learn

statsmodels

1.4 安裝和設(shè)置

Windows

Apple (OS X, macOS)

GNU/Linux

安裝或升級(jí)Python包

集成開發(fā)環(huán)境（IDEs）和文本編輯器

1.5 社區(qū)和會(huì)議

1.6 本書導(dǎo)航

代碼示例

示例數(shù)據(jù)

引入慣例

行話

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章 準(zhǔn)備工作

1.1 本書的內(nèi)容

什么樣的數(shù)據(jù)？

1.2 為什么要使用Python進(jìn)行數(shù)據(jù)分析

Python作為膠水語言

解決“兩種語言”問題

為什么不選Python

1.3 重要的Python庫

NumPy

pandas

matplotlib

IPython和Jupyter

SciPy

scikit-learn

statsmodels

1.4 安裝和設(shè)置

Windows

Apple (OS X, macOS)

GNU/Linux

安裝或升級(jí)Python包

集成開發(fā)環(huán)境（IDEs）和文本編輯器

1.5 社區(qū)和會(huì)議

1.6 本書導(dǎo)航

代碼示例

示例數(shù)據(jù)

引入慣例

行話

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

《利用Python進(jìn)行數(shù)據(jù)分析·第2版》第1章準(zhǔn)備工作