一、認識網頁
?????? 網頁分為三個部分:HTML(結構)、CSS(樣式)、JavaScript(功能)。
二、爬取網站信息入門
1、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup來解析網頁。
2、使用copy CSS selector來復制網頁元素的位置。
三、爬取房天下網站信息?
1、導入requests和beautifulsoup
2、定義函數spider_ftx,把所需要爬取的信息都定義出來
3、調用函數spider_ftx
4、翻頁爬取二手房信息
???? 由于每頁最多只能顯示40條信息,觀察每一頁網址的變化規律,寫一個循環調用的語句,把全部100頁的信息全都爬取下來。
四、小結:
???? 目前只能爬取到網站的100頁信息,網站為了反爬,設置了可瀏覽的頁面量100。要想爬取網站的所有信息,可以通過分類去獲取,但是如何用python實現呢,請看下集。