01.網絡爬蟲本質
最大的爬蟲就是各種搜索引擎,如谷歌、百度。
網絡爬蟲就是按照一定規則去抓取人類所需要的信息的程序,主要通過對URL的請求實現。
image.png
瀏覽器的一次請求,網站服務器的一次響應,就構成一次網絡爬蟲行為。
02.網絡爬蟲基礎流程
1.獲取網頁的URL地址
2.分辨請求網頁的方法
GET/POST
3.查看網頁的源代碼
4.撰寫爬蟲請求頭
5.解析頁面內容
bs4/xpath/re
6.存儲信息到本地
03.開發者工具
01.網絡爬蟲本質
最大的爬蟲就是各種搜索引擎,如谷歌、百度。
網絡爬蟲就是按照一定規則去抓取人類所需要的信息的程序,主要通過對URL的請求實現。
瀏覽器的一次請求,網站服務器的一次響應,就構成一次網絡爬蟲行為。
02.網絡爬蟲基礎流程
1.獲取網頁的URL地址
2.分辨請求網頁的方法
GET/POST
3.查看網頁的源代碼
4.撰寫爬蟲請求頭
5.解析頁面內容
bs4/xpath/re
6.存儲信息到本地
03.開發者工具