(一)爬取一頁信息
【1】任務一:將“貓途鷹”的信息爬下來。[此處,我選取 圖片、標題、標簽、價錢 作為爬取對象]爬取網頁:http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html
圖1
圖2
重點難點:1.只獲取圖片為單張的信息,如圖2,“城市游覽(182)”該信息不獲取。
2.圖片的CSS Select為“lazyload_1601710424_3”,即照片不在打開網頁時立即加載,而是利用JavaScript延遲加載。此時如何獲取照片信息。
【2】結果展示
【3】我的代碼
11.圖片的抓取.....
images = soup.select('img[width="160"]') ?#抓取的圖片地址相同
images = soup.find_all("img","photo_image") #能抓取到圖片地址,但不是想要的圖片。