最早看過一本跟大數據相關的書籍是《大數據時代》,后面還斷斷續續看過涂子沛老師寫的有關大數據的系列文章,工作的原因最近涉及到數據處理,看到tiger的解密大數據社群就立馬加進來了。以下是學完爬蟲入門后的作業練習。
Q1要爬取的數據類型
為了了解交通運輸行業(汽車,輪船,飛機,火車)的安全水平,需要監測最近的事故/事件信息,對這些信息加以分析,總結經驗提高交通運輸行業的安全水平。
監測的數據類型包括,
每天交通運輸行業更新的信息,從網站上獲得,
數據的類型有時間(年,月,日,具體時間點),交通工具名稱,地點,死傷人數,事故原因,
目前限制的范圍為近十年的數據。
Q2對應的數據源網站
為了調查這一塊的數據,需要涉及到的網站包括國家政府的統計網站,一些行業的信息網站。都是國內的,不涉及到國外的網站。
Q3爬取數據的url
先以上面兩個為例。
Q4數據篩選規則(選作)
待定,還沒搞懂,后續實踐中再補充完善。