真香!推薦6個冷門Python數據分析工具

用Python處理數據大家都不陌生了,屬于常規操作,但常規之下也還是暗藏技巧的,本篇就來分享6個好玩高效的操作,幫助大家提高效率。

一、Pandas Profiling

Pandas Profiling提供數據的一個整體報告,是一個幫助我們理解數據的過程。它可以簡單快速地對Pandas的數據框數據進行探索性數據分析。

其實,Pandasdf.describe()df.info()函數也可以實現數據探索過程第一步。但它們只提供了對數據非常基本的概述。而Pandas中的Profiling功能簡單通過一行代碼就能顯示大量信息,同時還能生成交互式HTML報告。

對于給定的數據集,Pandas中的profiling包計算了以下統計信息:

Pandas Profiling包計算出的統計信息包括直方圖、眾數、相關系數、分位數、描述統計量、其他信息包括類型、單一變量值、缺失值等。

安裝

pipconda即可,使用方法很簡單,如下:

import pandas as pdimport pandas_profilingdf = pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df)

用法

以titanic數據集來演示profiling的功能。

import pandas as pdimport pandas_profilingdf = pd.read_csv('titanic/train.csv')pandas_profiling.ProfileReport(df) 

除了導入庫之外只需要一行代碼,就能顯示數據報告的詳細信息,包括必要的圖表。

還可以使用以下代碼將報告導出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)profile.to_file(outputfile="Titanic data profiling.html")

二、pretty print

pprint是Python中的內置模塊。它能夠以格式清晰,可讀性強漂亮格式打印任意數據結構。一個例子對比下printpprint。

# 定義個字典,測試用my_dict = {'Student_ID': 34,'Student_name' : 'Tom', 'Student_class' : 5,          'Student_marks' : {'maths' : 92,                            'science' : 95,                            'social_science' : 65,                            'English' : 88}          }

print

# 正常的printprint(my_dict)# 輸出結果如下:{'Student_ID': 34, 'Student_name': 'Tom', 'Student_class': 5, 'Student_marks': {'maths': 92, 'science': 95, 'social_science': 65, 'English': 88}}

pprint

# 使用pprint輸出import pprintpprint.pprint(my_dict)# 輸出結果如下:{'Student_ID': 34, 'Student_class': 5, 'Student_marks': {'English': 88,                   'maths': 92,                   'science': 95,                   'social_science': 65}, 'Student_name': 'Tom'}

可以清楚看到pprint的優勢之處,數據結構一目了然啊。

三、Python Debugger

交互式調試器也是一個神奇的函數,如果在運行代碼單元格時出現報錯,可以在新行中鍵入%debug運行它。這將打開一個交互式調試環境,自動轉到報錯發生的位置,并且還可以檢查程序中分配的變量值并執行操作。要退出調試器,按q。比如下面這個例子。

x = [1,2,3]y = 2z = 5result = y+zprint(result)result2 = x+yprint(result2)

大家應該能看出x+y肯定會報錯,因為二者不是一個類型,無法進行運算操作。然后我們敲入%debug。

%debug

這時會出現對話框讓我們互交式輸入命令,比如我們可以像下面這樣做。

四、Cufflinks

這個庫之前也介紹過,對于數據探索的可視化分析超級好用,低代碼量便可生成漂亮的可視化圖形。下面舉一個例子:

cufflinksplotly的基礎上做了一進一步的包裝,方法統一,參數配置簡單。其次它還可以結合pandasdataframe隨意靈活地畫圖。可以把它形容為"pandas like visualization"

比如下面的lins線圖。

import pandas as pdimport cufflinks as cfimport numpy as npcf.set_config_file(offline=True)cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])

再比如box箱型圖

cf.datagen.box(20).iplot(kind='box',legend=False)

看著這動態圖就愛不釋手啊,有木有!

五、Pyforest

這是一個能讓你偷懶的import神器,可以提前在配置文件里寫好要導入的三方庫,這樣每次編輯腳本的時候就省去了開頭的一大堆import 各種庫,對于有常用和固定使用庫的朋友來說無疑也是提高效率的工具之一。

pyforest支持大部分流行的數據科學庫,比如pandasnumpymatplotlibseaborn,sklearntensorflow等等,以及常用的輔助庫如os,sysrepickle等。

此用法對于自己頻繁調試很方便,但對于那些頻繁跨環境比如和其它人共享腳本調試的時候就不是很好用了,因為別人不一定使用它。

看下面這個操作就明白了:

六、Jupyter notebook的筆記高亮

此方法僅適用于Jupyter notebook中,當我們想高亮筆記,讓筆記變得美觀的時候,這個方法非常的香。

筆記的高亮的顏色根據不同情況分為幾種,前端的同學一看就明白,區別就是每種顏色代碼的class類型不一樣,其它只要在div標簽中寫內容就好。下面看下用法。

藍色代表info

<div class="alert alert-block alert-info"><b>Tip:</b> Use blue boxes (alert-info) for tips and notes. If it’s a note, you don’t have to include the word “Note”.</div>

黃色代表warning

<div class="alert alert-block alert-warning"><b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas.</div>

綠色代表success

<div class="alert alert-block alert-success">Use green box only when necessary like to display links to related content.</div>

紅色代表danger

<div class="alert alert-block alert-danger">It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc. </div>

這里有個小提示:如果你直接復制到jupyter notebook中可能會報錯,因為默認是代碼的格式,所以你需要選中單元格按Esc變成可切換模式,然后再按Y切換成文本模式。這時候再運行shift+ok就ok了??聪旅孢@個例子。

以上就是6個冷門但卻實用的數據分析庫。

如果文章對你有幫助,歡迎轉發/點贊/收藏~

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容