爬蟲入門01-作業

最早看過一本跟大數據相關的書籍是《大數據時代》,后面還斷斷續續看過涂子沛老師寫的有關大數據的系列文章,工作的原因最近涉及到數據處理,看到tiger的解密大數據社群就立馬加進來了。以下是學完爬蟲入門后的作業練習。

Q1要爬取的數據類型

為了了解交通運輸行業(汽車,輪船,飛機,火車)的安全水平,需要監測最近的事故/事件信息,對這些信息加以分析,總結經驗提高交通運輸行業的安全水平。

監測的數據類型包括,

每天交通運輸行業更新的信息,從網站上獲得,

數據的類型有時間(年,月,日,具體時間點),交通工具名稱,地點,死傷人數,事故原因,

目前限制的范圍為近十年的數據。

Q2對應的數據源網站

為了調查這一塊的數據,需要涉及到的網站包括國家政府的統計網站,一些行業的信息網站。都是國內的,不涉及到國外的網站。

Q3爬取數據的url

安全信息網

安全生產信息網

先以上面兩個為例。

Q4數據篩選規則(選作)

待定,還沒搞懂,后續實踐中再補充完善。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容