從開放數(shù)據(jù)中，你可以了解一個(gè)城市或者社區(qū)是否安全，并合理避險(xiǎn)。

開放

3月2日，應(yīng)主辦方 TechMill 的邀請(qǐng)，我參加了在達(dá)拉斯公共圖書館舉行的“達(dá)拉斯-沃斯堡開放數(shù)據(jù)日”（DFW Open Data Day）。

為了鼓勵(lì)我 INFO 5731 課程的學(xué)生們積極參加這項(xiàng)活動(dòng)，我還制定了加分政策。

不過因?yàn)榧臃植呗云诒Ｊ兀瑏淼膶W(xué)生沒有預(yù)期那么多。

利用 NCTCOG 提供的新 Waze 數(shù)據(jù)，我改進(jìn)了之前在 HackNTX 2018 做的深度學(xué)習(xí)模型，取得了不小的進(jìn)展。

對(duì)我而言，另一項(xiàng)收獲，是參加了這次活動(dòng)的主題報(bào)告。

報(bào)告人是 Richard ，他給參會(huì)的部分人員講解了開放數(shù)據(jù)的定義、用途和使用方法。

雖然從2013年開始，我就在課程中為學(xué)生們講解開放數(shù)據(jù)。但是從他的報(bào)告中，我依然收獲了很多東西。

例如說，美國聯(lián)邦政府和地方當(dāng)局為什么要在網(wǎng)站上開放這么多數(shù)據(jù)？

要知道，一旦數(shù)據(jù)開放出來，普通人是可以對(duì)數(shù)據(jù)進(jìn)行組織、包裝和再分發(fā)，甚至是可以賺取經(jīng)濟(jì)利益的。

Richard 告訴我們，如果許多人都要求提供某一項(xiàng)數(shù)據(jù)，公務(wù)人員就有很大的動(dòng)力把數(shù)據(jù)直接發(fā)布出來。因?yàn)檫@樣，可以避免數(shù)據(jù)請(qǐng)求的巨大壓力。

我把 Richard 的報(bào)告幻燈放在了“延伸閱讀”模塊里。如果你感興趣，可以在讀過本文后訪問瀏覽。

Richard 還當(dāng)場帶領(lǐng)大家，以 Denton 市的犯罪記錄開放數(shù)據(jù)為例，用 Excel 加以分析。

雖然“犯罪記錄”聽上去很讓人不安。但是這種數(shù)據(jù)的公開，可以讓大眾了解到某個(gè)城市或者地區(qū)的治安情況。對(duì)于人們擇業(yè)、選房、投資，甚至是日常出行和活動(dòng)等決策，都可以提供輔助參考。

從這個(gè)講座中，我收獲良多。

本文，我借鑒 Richard 的分析思路，換成用 Python 和數(shù)據(jù)分析包 Pandas 對(duì)該數(shù)據(jù)集進(jìn)行分析和可視化。希望通過這個(gè)例子，讓你了解開放數(shù)據(jù)的獲取、整理、分析和可視化。

希望你舉一反三，把這種能力，應(yīng)用到更多的數(shù)據(jù)集上，獲得對(duì)數(shù)據(jù)的洞見。

數(shù)據(jù)

首先，訪問 Denton 開放數(shù)據(jù)主頁，地址是 http://data.cityofdenton.com/ 。

首頁就有搜索欄，我們可以輸入“crime”（犯罪）進(jìn)行查詢。

這是返回的搜索結(jié)果。

結(jié)果不僅包含數(shù)據(jù)名稱，還有數(shù)據(jù)類型。第一條是 csv 格式，最符合我們分析的需求，因此我們點(diǎn)擊第一項(xiàng)鏈接。

在這個(gè)頁面，我們點(diǎn)擊右側(cè)藍(lán)色“explore”旁邊的下拉按鈕，可以看到“預(yù)覽”和“下載”選項(xiàng)。我們可以直接下載數(shù)據(jù)集。但此處請(qǐng)你復(fù)制下載鏈接，放到筆記軟件或者編輯器里面，備用。

環(huán)境

本文的配套源代碼，我放在了 Github 項(xiàng)目中。請(qǐng)你點(diǎn)擊這個(gè)鏈接（http://t.cn/EIKS05O）訪問。

如果你對(duì)我的教程滿意，歡迎在頁面右上方的 Star 上點(diǎn)擊一下，幫我加一顆星。謝謝！

注意這個(gè)頁面的中央，有個(gè)按鈕，寫著“在 Colab 打開”(Open in Colab)。請(qǐng)你點(diǎn)擊它。

然后，Google Colab 就會(huì)自動(dòng)開啟。

Colab 為你提供了全套的運(yùn)行環(huán)境。你只需要依次執(zhí)行代碼，就可以復(fù)現(xiàn)本教程的運(yùn)行結(jié)果了。

如果你對(duì) Google Colab 不熟悉，沒關(guān)系。我這里有一篇教程，專門講解 Google Colab 的特點(diǎn)與使用方式。

為了你能夠更為深入地學(xué)習(xí)與了解代碼，我建議你在 Google Colab 中開啟一個(gè)全新的 Notebook ，并且根據(jù)下文，依次輸入代碼并運(yùn)行。在此過程中，充分理解代碼的含義。

這種看似笨拙的方式，其實(shí)是學(xué)習(xí)的有效路徑。

代碼

首先，將我們前面獲取到的數(shù)據(jù)下載地址，存入到 url 變量中。

url = "http://data.cityofdenton.com/dataset/17695047-0aeb-46a2-a9db-66847743ed1c/resource/d356a409-6764-46d7-942d-4d5a7ffb1c28/download/crime_data_20190301.csv"

然后，利用 wget 命令，把 csv 格式的數(shù)據(jù)下載到本地。

!wget {url}
crime_data_20190301 100%[===================>]   9.22M  8.22MB/s    in 1.1s    
2019-03-04 02:31:39 (8.22 MB/s) - ‘crime_data_20190301.csv’ saved [9667384/9667384]

讀入 Pandas 軟件包。

import pandas as pd

用 Pandas 的 csv 數(shù)據(jù)格式讀取功能，把數(shù)據(jù)讀入，并且存入到 df 變量里面。

df = pd.read_csv('crime_data_20190301.csv')

讓我們看看 df 的前幾行。

df.head()

好的，數(shù)據(jù)已經(jīng)成功讀取。

下面我們來著重分析一下，都有哪些犯罪類型，每種類型下，又有多少記錄。

這里我們使用的是 Pandas 中的 value_counts 函數(shù)。它可以幫助我們自動(dòng)統(tǒng)計(jì)某一列中不同類別出現(xiàn)的次數(shù)，而且還自動(dòng)進(jìn)行排序。為了顯示的方便，我們只要求展示前10項(xiàng)內(nèi)容。

df.crime.value_counts().iloc[:10]

看來， Denton 最主要的犯罪類型，是“輕微人身攻擊”（Simple Assault）。“酒醉”（Drunkenness）的次數(shù)也不少，排名第三位。

為了更直觀查看數(shù)據(jù)統(tǒng)計(jì)結(jié)果，我們調(diào)用 Pandas 內(nèi)置的繪圖函數(shù) plot ，并且指定繪圖類型為“橫向條狀圖”（barh）。

df.crime.value_counts().iloc[:10].sort_values().plot(kind='barh')

這樣看起來，一目了然。

下面，我們著重了解某一種犯罪的情況。因?yàn)榉缸镱愋臀寤ò碎T，所以我們從中選擇一種嚴(yán)重的暴力犯罪——搶劫（Robbery）。

這里，為了后續(xù)分析的便利。我們首先把搶劫類型的犯罪單獨(dú)提煉出來，存儲(chǔ)在 robbery 這樣一個(gè)新的數(shù)據(jù)框里。

robbery = df[df.crime.str.contains('ROBBERY')]; robbery.head()

我們來看看 robbery 數(shù)據(jù)框的大小。

robbery.shape

(660, 6)

一共是660條記錄，每條記錄有6列。

我們查看一下“犯罪位置”（locname）類型，以及每種類型對(duì)應(yīng)的記錄條目數(shù)。

這次，我們使用 groupby 函數(shù)，先把犯罪位置進(jìn)行分類，然后用 size 函數(shù)來查看條目統(tǒng)計(jì)。

這里，我們指定排序?yàn)閺拇蟮叫　?/p>

robbery.groupby('locname').size().sort_values(ascending=False)

作為練習(xí)，希望你可以用 value_counts 函數(shù)，自己改寫上面的語句。

根據(jù)結(jié)果顯示，入室搶劫次數(shù)最多，在學(xué)校、公交車上發(fā)生的次數(shù)最少。

下面還是用 plot 函數(shù)，把結(jié)果可視化呈現(xiàn)。

robbery.groupby('locname').size().sort_values(ascending=False).head(10).sort_values().plot(kind='barh')

下一步，我們嘗試把分析的粒度做得更加細(xì)致——研究一下，哪些街區(qū)比較危險(xiǎn)。

回顧上圖中，地址信息都表示為類似“19XX BRINKER RD”這樣的方式。把具體地址的后兩位隱藏，是為了保護(hù)受害者的隱私。

我們?nèi)绻y(tǒng)計(jì)某一條街道的犯罪數(shù)量，就需要把前面的數(shù)字忽略，并且按照街道名稱加總。

這個(gè)處理起來，并不困難，只要用正則表達(dá)式即可。

regex = r"\d+XX\s(?P<street>.*)"
subst = "\\g<street>"

這里，我們用括號(hào)把需要保留的內(nèi)容，賦值為 street 分組。然后替換的時(shí)候，只保留這個(gè)分組的信息。于是前面的具體地址數(shù)字就忽略了。

調(diào)用 Pandas 的 str.replace 函數(shù)，我們可以讓它自動(dòng)將每一個(gè)地址都進(jìn)行解析替換，并且把結(jié)果存入到了一個(gè)新的列名稱，即 street 。

robbery["street"] = robbery.publicadress.str.replace(regex, subst)

看看此時(shí)新的 robbery 數(shù)據(jù)框樣子。

robbery.head()

注意最后多出來的一列，確實(shí)已經(jīng)變成了我們希望轉(zhuǎn)換的形式。

依然按照前面的方法，我們分組統(tǒng)計(jì)每一條街道上的犯罪數(shù)量，并且進(jìn)行排序。

robbery.groupby('street').size().sort_values(ascending=False).head(10)

看來，大學(xué)西道（W University DR）搶劫頻發(fā)，沒事兒最好少去瞎轉(zhuǎn)悠。我住的街道還好，沒有出現(xiàn)在前10名的范疇。

注意，我們其實(shí)是在分析10年的犯罪信息匯總。如果更進(jìn)一步，想要利用時(shí)間數(shù)據(jù)，進(jìn)行切分，我們就得把日期信息做一下轉(zhuǎn)換處理。

這里，請(qǐng)你安裝一個(gè)特別好用的時(shí)間分析軟件包 python-dateutil 。我第一次使用的時(shí)候，立即決定棄用 datetime 包了。

!pip install python-dateutil

我們從 dateutil 里面的 parser 模塊，載入全部內(nèi)容。

from dateutil.parser import *

下面，我們抽取年度信息。因?yàn)槟壳暗娜掌跁r(shí)間列（incidentdatetime）是個(gè)字符串，因此我們可以直接用 parse 函數(shù)解析它，并且抽取其中的年份（year）項(xiàng)。

robbery["year"] = robbery.incidentdatetime.apply(lambda x: parse(x).year)

以此類推，我們抽取“月”和“小時(shí)”的信息。

robbery["month"] = robbery.incidentdatetime.apply(lambda x: parse(x).month)

robbery["hour"] = robbery.incidentdatetime.apply(lambda x: parse(x).hour)

好了，來看看此時(shí)的 robbery 數(shù)據(jù)框。

robbery.head()

注意后三列是我們剛剛生成的。

我們先按照年度來看看搶劫犯罪數(shù)量的變化趨勢。

robbery.groupby('year').size()

注意這里，數(shù)量最少的是 2019 年。看似是很喜人的變化。可惜我們分析數(shù)據(jù)的時(shí)候，一定要留心這種細(xì)節(jié)。

我們讀取的數(shù)據(jù)，統(tǒng)計(jì)時(shí)間截止到 2019 年的 3 月初。因此，2019年數(shù)據(jù)并不全。

所以，比較穩(wěn)妥的方法，是干脆去掉所有2019年的條目。

robbery = robbery[~(robbery.year == 2019)]

去除后，看看此時(shí)的 robbery 數(shù)據(jù)框。

robbery.shape

(643, 10)

數(shù)量沒錯(cuò)，恰好少了 17 行。

好了，我們來繪制一下?lián)尳俜缸飻?shù)量變化趨勢折線圖。

Pandas 的 plot 函數(shù)，默認(rèn)狀態(tài)下，就是繪制折線圖。因此我們不需要加入?yún)?shù)。

robbery.groupby('year').size().plot()

看來，從 2013 到 2016 年的搶劫犯罪形成了一個(gè)低谷。近兩年的數(shù)據(jù)，又有上行的趨勢。

但是，我們能否就此得出結(jié)論，說 Denton 這兩年的治安，越來越差了呢？

還不行。

因?yàn)榭紤]犯罪，不能只看絕對(duì)數(shù)值，還要看相對(duì)比例。我這里給你提供一個(gè)數(shù)據(jù)源，請(qǐng)你參考它，進(jìn)行比例數(shù)值計(jì)算，修正上面的折線圖。

下面，我們比較一下，不同月份之間，是否有明顯的搶劫犯罪發(fā)生數(shù)量差別。

robbery.groupby('month').size().plot(kind='bar')

從上圖中，可以看到，從 2010 到 2018 年，10月和12月犯罪數(shù)量較多，2月和7月相對(duì)好一些。

但是，我們可能更加關(guān)心近年的情況。因?yàn)槿拥袅?019年的不完整數(shù)據(jù)，此時(shí)我們能使用的最近年份，是2018.

我們就把2018年的月份犯罪記錄統(tǒng)計(jì)做可視化。

robbery[robbery.year==2018].groupby('month').size().plot(kind='bar')

2018年的10月，犯罪數(shù)量相對(duì)不算高，但12月看來確實(shí)是需要注意安全的。

下面我們來看看，搶劫一般發(fā)生在什么時(shí)間。這次我們用的，是小時(shí)（hour）數(shù)據(jù)。

robbery.groupby('hour').size().plot(kind='bar')

從總體數(shù)據(jù)看來，每天早上8點(diǎn)，你是不用太擔(dān)心搶劫的；晚上23點(diǎn)嘛……

我們?cè)倏纯?018年的情況。

robbery[robbery.year==2018].groupby('hour').size().plot(kind='bar')

8點(diǎn)依然比較安全。但是最危險(xiǎn)的時(shí)段，變成了晚上8點(diǎn)多。莫非劫匪們也打算早點(diǎn)兒休息？

如果我們更加小心謹(jǐn)慎，還可以根據(jù)不同月份，來查看不同時(shí)段的搶劫案件發(fā)生數(shù)量。

這里，我們把 groupby 里面的單一變量，換成一個(gè)列表。于是 Pandas 就會(huì)按照列表中指定的順序，先按照月份分組，再按照小時(shí)分組。

robbery[robbery.year==2018].groupby(['month', 'hour']).size()

但是這樣的統(tǒng)計(jì)結(jié)果，無法直接繪制。我們需要做一個(gè)變換。這里用的是 Pandas 中的 unstack 函數(shù)，把內(nèi)側(cè)的分組索引（hour）轉(zhuǎn)換到列上。

robbery[robbery.year==2018].groupby(['month', 'hour']).size().unstack(0)

因?yàn)樵S多時(shí)間段，本來就沒有搶劫案件發(fā)生，所以這個(gè)表中，出現(xiàn)了許多空值（NaN）。我們根據(jù)具體情況，采用0來填充。Pandas 中數(shù)據(jù)填充的函數(shù)是 fillna。

robbery[robbery.year==2018].groupby(['month', 'hour']).size().unstack(0).fillna(0)

好了，這下就可以可視化了。

我們希望繪制的，不是一張圖，而是 12 張。分別代表 12 個(gè)月。這種圖形，有個(gè)專門的名稱，叫做“分面圖”（facet plot）。 Pandas 的 plot 函數(shù)有一個(gè)非常方便的參數(shù)，叫做 subplots ，可以幫助我們輕松達(dá)成目標(biāo)。

每張圖，我們依然采用柱狀圖的方式。因?yàn)槟J(rèn)方式繪制的圖像，尺寸可能不符合我們的預(yù)期。因此我們顯式指定圖片的長寬。

robbery[robbery.year==2018].groupby(['month', 'hour']).size().unstack(0).fillna(0).plot(subplots=True, kind='bar', figsize=(5,30))

你看了這張圖以后，作何感想？

我覺得，每個(gè)月份，這張圖對(duì)于哪個(gè)時(shí)段最好不要出門，都具備比較高的指導(dǎo)意義。因此……可以當(dāng)成黃歷來使用。

開個(gè)玩笑啦，別當(dāng)真。

如果你對(duì)于圖像的品質(zhì)有追求，我建議你學(xué)用 Matplotlib 或者 seaborn 來重繪上圖。這也作為今天的最后一道練習(xí)題，留給你解決。歡迎你把答案用留言的方式和大家分享。

小結(jié)

通過本文的學(xué)習(xí)，希望你已掌握了以下內(nèi)容：

如何檢索、瀏覽和獲取開放數(shù)據(jù)；
如何用 Python 和 Pandas 做數(shù)據(jù)分類統(tǒng)計(jì)；
如何在 Pandas 中做數(shù)據(jù)變換，以及缺失值補(bǔ)充；
如何用 Pandas 中的 plot 函數(shù)做折線圖、柱狀圖，以及分面圖（facet plot）。

祝 Python 編程愉快（和出入平安）！

延伸閱讀

你可能也會(huì)對(duì)以下話題感興趣。點(diǎn)擊鏈接就可以查看。

喜歡請(qǐng)點(diǎn)贊和打賞。還可以微信關(guān)注和置頂我的公眾號(hào)“玉樹芝蘭”(nkwangshuyi)。

如果你對(duì) Python 與數(shù)據(jù)科學(xué)感興趣，不妨閱讀我的系列教程索引貼《如何高效入門數(shù)據(jù)科學(xué)？》，里面還有更多的有趣問題及解法。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

如何用 Python 和 Pandas 分析犯罪記錄開放數(shù)據(jù)？

如何用 Python 和 Pandas 分析犯罪記錄開放數(shù)據(jù)？

開放

數(shù)據(jù)

環(huán)境

代碼

小結(jié)

延伸閱讀

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

如何用 Python 和 Pandas 分析犯罪記錄開放數(shù)據(jù)？

開放

數(shù)據(jù)

環(huán)境

代碼

小結(jié)

延伸閱讀

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频