一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分為兩部分,非結構化的數據 和 結構化的數據。
- 非結構化數據:先有數據,再有結構,
- 結構化數據:先有結構、再有數據
- 不同類型的數據,我們需要采用不同的方式來處理。
非結構化的數據處理
文本、電話號碼、郵箱地址
- 正則表達式
HTML 文件
- 正則表達式
- XPath
- CSS選擇器
結構化的數據處理
JSON 文件
- JSON Path
- 轉化成Python類型進行操作(json類)
XML 文件
- 轉化成Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式