1.非結構化數據:
如圖的網頁資料/文章,因此我們需要挖掘有價值的數據,那么這個時候我們需要通過ETL(Extract,Transformation,Loading)工具才能將數據轉化為結構化數據之后,數據才可以的有效的利用。
2.ETL:
原始資料->ETL腳本->結構化數據
食材->廚師->美食
3.如何處理非結構化數據
將新聞列表的標題、摘要、圖片抓取下來。
4.網絡爬蟲:
比如百度、Google等搜索引擎的各種爬蟲,無數的爬蟲自動的去獲取網絡上的最新資訊。
用途:
1.比如開發一個爬蟲自動獲取用戶的需求數據===挖掘價值數據,降低人工成本,提升效益!
新浪新聞主頁
5.網絡請求:
瀏覽器F12打開控制臺,看到有186個請求
(這里我使用的是360極速瀏覽器)
隨便打開一個
很容易理解!這是我們的概覽請求
然后我們看看網站服務器給我們的回應:
國內新聞:
按下F12打開開發者工具,刷新后選擇DOC(如圖):
需要的環境相信大家都配置好了!
Python3.x
Request
Beautifulsoup4
對于環境的配置和安裝,百度一下就會有很多詳細的資料,此處不詳細講解!
至此,第一課結束!
QQ:1099718640
更多精彩內容請訪問個人主頁:http://blog.csdn.net/dyboy2017
原文地址:http://blog.csdn.net/dyboy2017/article/details/77865822