使用 Python 和 Pandas 分析犯罪記錄開放數據

從開放數據中,你可以了解一個城市或社區是否安全,并合理避險。

本文借鑒 知乎@王樹義 的分析思路,使用 Python 和數據分析包 Pandas 對該數據集進行分析和可視化。

原網址為:https://zhuanlan.zhihu.com/p/58314015?utm_source=qq&utm_medium=social

首先,訪問 Denton 開放數據主頁,地址是 http://data.cityofdenton.com/ 。搜索 crime 獲取數據。

讀入 Pandas 庫,并使用 Pandas 方法讀入 CSV 文件。文件保存在 df 中,并確認文件已經成功讀入。

import pandas as pd
df = pd.read_csv('crime_data_20190322.csv')
df.head()
結果圖

下面來著重分析一下,都有哪些犯罪類型,每種類型下,又有多少記錄。

這里我們使用的是 Pandas 中的 value_counts 函數。它可以幫助我們自動統計某一列中不同類別出現的次數,而且還自動進行排序。為了顯示的方便,我們只要求展示前 10 項內容。

value_counts() 是一種查看表格某列中有多少個不同值的快捷方法,并計算每個不同值有在該列中有多少重復值。
value_counts() 是 Series 擁有的方法,一般在 DataFrame 中使用時,需要指定對哪一列或行使用。

iloc 方法是基于索引位來選取數據集, 例如 0:4就是選取 0,1,2,3 這四行,需要注意的是這里是前閉后開集合。

df.crime.value_counts().iloc[:10]
結果圖

可以看到位于前幾位的犯罪類型分別為:輕微人身攻擊,所有其他盜竊案,財產的破壞,醉酒,商店行竊,汽車失竊,使用毒品,詐騙,入室盜竊。

為了更直觀查看數據統計結果,我們調用 Pandas 內置的繪圖函數 plot ,并且指定繪圖類型為“橫向條狀圖”(barh)。

import matplotlib as plt
df.crime.value_counts().iloc[:10].sort_values().plot(kind='barh')

結果為:

結果圖

下面,我們著重了解某一種犯罪的情況。因為犯罪類型五花八門,所以我們從中選擇一種嚴重的暴力犯罪——搶劫(Robbery)。

這里,為了后續分析的便利。我們首先把搶劫類型的犯罪單獨提煉出來,存儲在 robbery 這樣一個新的數據框里。同樣只展示前幾種。

pandas.Series.str.contains() 方法可以通過查詢每行是否包含指定字符串進行模糊查詢。

robbery = df[df.crime.str.contains('ROBBERY')]; robbery.head()
結果圖

我們查看一下“犯罪位置”(locname)類型,以及每種類型對應的記錄條目數。

這次,我們使用 groupby 函數,先把犯罪位置進行分類,然后用 size() 函數來查看條目統計。

這里,我們指定排序為從大到小。

groupby('locname').size() 函數可以按照‘locname’這一列進行分組并統計數量。

robbery.shape
robbery.groupby('locname').size().sort_values(ascending=False)
結果圖

當然以上代碼可以使用value_counts 方法解決。

robbery.locname.value_counts()

結果相同。

根據結果顯示,入室搶劫次數最多,在學校、公交車上發生的次數最少。

下面還是用 plot 函數,把結果可視化呈現。

robbery.groupby('locname').size().sort_values(ascending=False).head(10).sort_values().plot(kind='barh')

下一步,我們嘗試把分析的粒度做得更加細致——研究一下,哪些街區比較危險。

地址信息都表示為類似“19XX BRINKER RD”這樣的方式。把具體地址的后兩位隱藏,是為了保護受害者的隱私。

我們如果要統計某一條街道的犯罪數量,就需要把前面的數字忽略,并且按照街道名稱加總。

這個處理起來,并不困難,只要用正則表達式即可。

正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯.

regex = r"\d+XX\s(?P<street>.*)"
subst = "\\g<street>"

這里,我們用括號把需要保留的內容,賦值為 street 分組。然后替換的時候,只保留這個分組的信息。于是前面的具體地址數字就忽略了。

調用 Pandas 的 str.replace 函數,我們可以讓它自動將每一個地址都進行解析替換,并且把結果存入到了一個新的列名稱,即 street

robbery["street"] = robbery.publicadress.str.replace(regex, subst)

可以看到在 DataFrame 的最后一列是簡化的街道。

依然按照前面的方法,我們分組統計每一條街道上的犯罪數量,并且進行排序。

robbery.groupby('street').size().sort_values(ascending=False).head(10)

看來,大學西道(W University DR)搶劫頻發,沒事兒最好少去瞎轉悠。

注意,我們其實是在分析10年的犯罪信息匯總。如果更進一步,想要利用時間數據,進行切分,我們就得把日期信息做一下轉換處理。

我們從 dateutil 里面的 parser 模塊,載入全部內容。

from dateutil.parser import *

下面,我們抽取年度信息。因為目前的日期時間列(incidentdatetime)是個字符串,因此我們可以直接用 parse 函數解析它,并且抽取其中的年份(year)項。

robbery["year"] = robbery.incidentdatetime.apply(lambda x: parse(x).year)

apply 函數是pandas里面所有函數中自由度最高的函數。該函數如下:

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

該函數最有用的是第一個參數,這個參數是函數,相當于 C/C++ 的函數指針。

這個函數需要自己實現,函數的傳入參數根據 axis 來定,比如 axis = 1,就會把一行數據作為 Series 的數據結構傳入給自己實現的函數中,我們在函數中實現對 Series 不同屬性之間的計算,返回一個結果,則 apply 函數會自動遍歷每一個DataFrame 的數據,最后將所有結果組合成一個 Series 數據結構并返回。

字符串轉日期

DateUtil.parse方法會自動識別一些常用格式,包括:

  1. yyyy-MM-dd HH:mm:ss

  2. yyyy-MM-dd

  3. HH:mm:ss

  4. yyyy-MM-dd HH:mm

  5. yyyy-MM-dd HH:mm:ss.SSS

更多關于此方法的介紹見 https://www.cnblogs.com/mr-wuxiansheng/p/7787296.html

以下是程序運行的結果,可以看到成功列出了 年、月、日。

我們先按照年度來看看搶劫犯罪數量的變化趨勢。

robbery.groupby('year').size()

注意這里,數量最少的是 2019 年。看似是很喜人的變化。可惜我們分析數據的時候,一定要留心這種細節。

我們讀取的數據,統計時間截止到 2019 年的 3 月初。因此,2019年數據并不全。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,494評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,714評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,410評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,940評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,776評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,210評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,654評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,958評論 2 373