Python實戰課程1.3:爬取“貓途鷹”網頁信息

(一)爬取一頁信息

【1】任務一:將“貓途鷹”的信息爬下來。[此處,我選取 圖片、標題、標簽、價錢 作為爬取對象]爬取網頁:http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html

圖1
圖2

重點難點:1.只獲取圖片為單張的信息,如圖2,“城市游覽(182)”該信息不獲取。

2.圖片的CSS Select為“lazyload_1601710424_3”,即照片不在打開網頁時立即加載,而是利用JavaScript延遲加載。此時如何獲取照片信息。

【2】結果展示

【3】我的代碼


11.圖片的抓取.....

images = soup.select('img[width="160"]') ?#抓取的圖片地址相同

images = soup.find_all("img","photo_image") #能抓取到圖片地址,但不是想要的圖片。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容