頁面解析和數據提取

一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分為兩部分,非結構化的數據 和 結構化的數據。

  • 非結構化數據:先有數據,再有結構,
  • 結構化數據:先有結構、再有數據
  • 不同類型的數據,我們需要采用不同的方式來處理。

非結構化的數據處理

文本、電話號碼、郵箱地址

  • 正則表達式

HTML 文件

  • 正則表達式
  • XPath
  • CSS選擇器

結構化的數據處理

JSON 文件

  • JSON Path
  • 轉化成Python類型進行操作(json類)

XML 文件

  • 轉化成Python類型(xmltodict)
  • XPath
  • CSS選擇器
  • 正則表達式
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容