三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<style id="1js8u"></style>

<cite id="1js8u"></cite>

<sub id="1js8u"></sub>

<legend id="1js8u"><track id="1js8u"></track></legend>

<s id="1js8u"></s>

登錄注冊寫文章

利用Python Pandas進行數(shù)據(jù)預(yù)處理-數(shù)據(jù)清洗

利用Python Pandas進行數(shù)據(jù)預(yù)處理-數(shù)據(jù)清洗

數(shù)據(jù)缺失

數(shù)據(jù)缺失在大部分數(shù)據(jù)分析應(yīng)用中都很常見，Pandas使用浮點值NaN表示浮點和非浮點數(shù)組中的缺失數(shù)據(jù)，他只是一個便于被檢測出來的數(shù)據(jù)而已。

Python內(nèi)置的None值也會被當(dāng)作NA處理

處理NA的方法有四種：dropna,fillna,isnull,notnull

is(not)null，這一對方法對對象做出元素級的應(yīng)用，然后返回一個布爾型數(shù)組，一般可用于布爾型索引。

dropna，對于一個Series，dropna返回一個僅含非空數(shù)據(jù)和索引值的Series。

問題在于DataFrame的處理方式，因為一旦drop的話，至少要丟掉一行（列）。這里解決方法與前面類似，還是通過一個額外的參數(shù)：dropna(axis=0,how=’any’,thresh=None)，how參數(shù)可選的值為any或者all.all僅在切片元素全為NA時才拋棄該行(列)。thresh為整數(shù)類型，eg:thresh=3,那么一行當(dāng)中至少有三個NA值時才將其保留。

fillna,fillna(value=None,method=None,axis=0)中的value除了基本類型外，還可以使用字典，這樣可以實現(xiàn)對不同列填充不同的值。

另一個過濾DataFrame行的問題涉及問題序列數(shù)據(jù)。假設(shè)只想留一部分觀察數(shù)據(jù)，可以用thresh參數(shù)實現(xiàn)此目的：

不想濾除缺失的數(shù)據(jù)，而是通過其他方式填補“空洞”，fillna是最主要的函數(shù)。

通過一個常數(shù)調(diào)用fillna就會將缺失值替換為那個常數(shù)值：

若是通過一個字典調(diào)用fillna，就可以實現(xiàn)對不同列填充不同的值。

可以利用fillna實現(xiàn)許多別的功能，比如可以傳入Series的平均值或中位數(shù)：

檢測和過濾異常值

異常值(outlier)的過濾或變換運算在很大程度上就是數(shù)組運算。如下一個(1000,4)的標(biāo)準(zhǔn)正態(tài)分布數(shù)組：

DataFrame的duplicated方法返回一個布爾型Series，表示各行是否是重復(fù)行。

與此相關(guān)的還有一個drop_duplicated方法，它用于返回一個移除了重復(fù)行的DataFrame：

上面的兩個方法會默認判斷全部列，也可以指定部分列進行重復(fù)項判斷，假設(shè)還有一列值，而只希望根據(jù)k1列過濾重復(fù)項。duplicates和drop_duplicates默認保留第一個出現(xiàn)的值組合。傳入take_last=True則保留最后一個

最后編輯于：2017.12.06 08:10:19

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

利用python進行數(shù)據(jù)分析之pandas入門(二)
5.3匯總和計算描述性統(tǒng)計 pandas對象擁有一組常用的數(shù)學(xué)和統(tǒng)計方法。他們大部分都屬于約簡和匯總統(tǒng)計，用于從S...
凌岸_ing閱讀 1,701評論 0贊 1
利用python進行數(shù)據(jù)分析之pandas入門(一)
目錄： 5.1 pandas 的數(shù)據(jù)結(jié)構(gòu)介紹 5.1.1 Series 5.1.2 DataFrame 5.1.3...
凌岸_ing閱讀 4,789評論 0贊 17
《利用Python進行數(shù)據(jù)分析·第2版》第5章 pandas入門
第1章準(zhǔn)備工作第2章 Python語法基礎(chǔ)，IPython和Jupyter第3章 Python的數(shù)據(jù)結(jié)構(gòu)、函數(shù)和...
SeanCheney閱讀 163,350評論 76贊 397
《利用python進行數(shù)據(jù)分析》2.0——pandas庫
目錄： 1.values 和index2.檢測缺失數(shù)據(jù)3.name 屬性4.賦值直接修改 DataFrame ：表...
鬼宇書生閱讀 1,595評論 0贊 1
Python 數(shù)據(jù)分析包：pandas 基礎(chǔ)
pandas 是基于 Numpy 構(gòu)建的含有更高級數(shù)據(jù)結(jié)構(gòu)和工具的數(shù)據(jù)分析包類似于 Numpy 的核心是 ndar...
靜熙老師哈哈哈閱讀 686評論 0贊 4

5贊6贊

贊賞

手機看全文

主站蜘蛛池模板：筠连县| 青海省| 沂水县| 湖州市| 龙泉市| 旬阳县| 建平县| 仪陇县| 新河县| 集安市| 二连浩特市| 漳浦县| 怀柔区| 若尔盖县| 百色市| 纳雍县| 绥棱县| 定兴县| 丁青县| 雅安市| 鞍山市| 安福县| 历史| 玉门市| 双峰县| 民县| 城市| 桂林市| 启东市| 新田县| 板桥市| 色达县| 奉化市| 拉孜县| 景德镇市| 紫金县| 泽州县| 永丰县| 会宁县| 宁陵县| 普格县|

<legend id="rqyeb"><abbr id="rqyeb"></abbr></legend>