思路如下:
1、先觀察一下前幾頁的信息。發現前三頁網址如下:
http://sh.xiaozhu.com/
http://sh.xiaozhu.com/search-duanzufang-p2-0/
http://sh.xiaozhu.com/search-duanzufang-p3-0/
把第一頁的網站改成http://sh.xiaozhu.com/search-duanzufang-p1-0/進行訪問得到同樣的結果,因此只需要把P后面的數字改掉就可以了(是不是想到了format方法)
2、本次爬蟲在詳細頁面中進行,因此需爬取進入詳細頁的鏈接,進而爬取數據。
3、需要爬取的信息有:標題,地址,價格,房東名稱,房東性別和房東頭像的鏈接
部分函數代碼
#爬蟲部分結果