第一課 Python初識爬蟲與網絡請求

1.非結構化數據:

如圖的網頁資料/文章,因此我們需要挖掘有價值的數據,那么這個時候我們需要通過ETL(Extract,Transformation,Loading)工具才能將數據轉化為結構化數據之后,數據才可以的有效的利用。

2.ETL:

原始資料->ETL腳本->結構化數據

食材->廚師->美食

3.如何處理非結構化數據

將新聞列表的標題、摘要、圖片抓取下來。

4.網絡爬蟲:

比如百度、Google等搜索引擎的各種爬蟲,無數的爬蟲自動的去獲取網絡上的最新資訊。

用途:

1.比如開發一個爬蟲自動獲取用戶的需求數據===挖掘價值數據,降低人工成本,提升效益!

新浪新聞主頁

5.網絡請求:

瀏覽器F12打開控制臺,看到有186個請求

(這里我使用的是360極速瀏覽器)


隨便打開一個

很容易理解!這是我們的概覽請求

然后我們看看網站服務器給我們的回應:

打開網址:http://news.sina.com.cn/china/

國內新聞:

按下F12打開開發者工具,刷新后選擇DOC(如圖):

需要的環境相信大家都配置好了!

Python3.x

Request

Beautifulsoup4

對于環境的配置和安裝,百度一下就會有很多詳細的資料,此處不詳細講解!

至此,第一課結束!

QQ:1099718640

更多精彩內容請訪問個人主頁:http://blog.csdn.net/dyboy2017

原文地址:http://blog.csdn.net/dyboy2017/article/details/77865822

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容