作業1.2-爬取商品信息

網站

Paste_Image.png

代碼

from bs4 import BeautifulSoup
info = []
with open('D:/Plan-for-combating-master/week1/1_2/1_2answer_of_homework/index.html','r') as wb_data:
    soup = BeautifulSoup(wb_data, 'lxml')
    images = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > img')
    titles = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.caption > h4:nth-of-type(2) > a')
    prices = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.caption > h4.pull-right')
    stars = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.ratings > p:nth-of-type(2)')
    reviews = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.ratings > p.pull-right')

for title,image,price,star,review in zip(titles,images,prices,stars,reviews):
    data = { 
       'title':title.get_text(), 
       'image':image.get('src'),
       'price':price.get_text().replace('$',''),
       'star':len(star.find_all('span', class_='glyphicon glyphicon-star')),
       'review':review.get_text().split()[0]
    }
    info.append(data)

print(info)

問題

  • 從網頁上直接copy selector時,有個div標簽序號是錯的。應該是1,copy下來的結果是2。最開始沒有意識到,出來的結果一直有錯...后來一步步檢查才發現,不知道為何網頁自動copy的也會出這種錯呢?
  • 想到一個問題:如果一個標簽A下,有B/C/D三個并列的標簽,但我只想爬取B/D兩個標簽下的內容。如何在select的時候選中這特定的兩個標簽呢?因為要么就限制selector末端為A,但這樣就把三個都抓進去了。不知道一個標簽下存在三個并列的不同標簽,是否是一個合理的html格式。

總結

  • 限制標簽順序的時候可以用A.class_name,也可以用A.nth-of-type(n)。直接從網頁上copy的selector是nth-child(n),可能會報錯,需要注意。
  • find_all方法查找特定標簽里的內容時,可以根據class名稱查找,此時class要加一個下劃線class_
  • 總結起來就是,先用beautifulsoap將網頁的內容讀入,再根據select的參數將想要的標簽內容提取出來成為一個list,最后在這些list里再使用各種方法獲取標簽里面的內容就可以了。有的是直接get_text獲取標簽內的文本信息,圖片一般是get('src)等等。當然,根據你拿到的信息,可以再做一些別的字符串處理,最終呈現想要的結果輸出就可以了。

沈 閱
20160826

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • ㈠任務內容:爬取本地網頁的商品信息(商品名稱、價錢、評分、瀏覽量) (二)最終成果展示: (三)我的代碼: (四)...
    魏魏魏_1500閱讀 358評論 0 0
  • 作業要求:解析本地網頁信息,收集商品信息 我的代碼 總結 遇到的坑 關于CSS selector 格式必須要對正確...
    解宇涵閱讀 733評論 0 0
  • 1. Java基礎部分 基礎部分的順序:基本語法,類相關的語法,內部類的語法,繼承相關的語法,異常的語法,線程的語...
    子非魚_t_閱讀 31,767評論 18 399
  • 轉眼間又是一個酷夏,覺得自己總是在一年又一年的時間縫際里游蕩著,覺得每天總有很多做不完的事,但是當你靜下心來的時...
    Julissa閱讀 234評論 0 0
  • 今天看到29號同伴寫的,自己也有同感,我的父親母親都是體力勞動者,爸爸內向不愛與他人交流,也不會說好聽話,也懶,眼...
    我靜靜閱讀 262評論 0 0