在线天堂中文在线资源网,亚洲中文字幕无码av,yellow视频

網站

Paste_Image.png

代碼

from bs4 import BeautifulSoup
info = []
with open('D:/Plan-for-combating-master/week1/1_2/1_2answer_of_homework/index.html','r') as wb_data:
    soup = BeautifulSoup(wb_data, 'lxml')
    images = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > img')
    titles = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.caption > h4:nth-of-type(2) > a')
    prices = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.caption > h4.pull-right')
    stars = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.ratings > p:nth-of-type(2)')
    reviews = soup.select('body > div:nth-of-type(1) > div > div.col-md-9 > div:nth-of-type(2) > div > div > div.ratings > p.pull-right')

for title,image,price,star,review in zip(titles,images,prices,stars,reviews):
    data = { 
       'title':title.get_text(), 
       'image':image.get('src'),
       'price':price.get_text().replace('$',''),
       'star':len(star.find_all('span', class_='glyphicon glyphicon-star')),
       'review':review.get_text().split()[0]
    }
    info.append(data)

print(info)

問題

從網頁上直接copy selector時，有個div標簽序號是錯的。應該是1，copy下來的結果是2。最開始沒有意識到，出來的結果一直有錯...后來一步步檢查才發現，不知道為何網頁自動copy的也會出這種錯呢？
想到一個問題：如果一個標簽A下，有B/C/D三個并列的標簽，但我只想爬取B/D兩個標簽下的內容。如何在select的時候選中這特定的兩個標簽呢？因為要么就限制selector末端為A，但這樣就把三個都抓進去了。不知道一個標簽下存在三個并列的不同標簽，是否是一個合理的html格式。

總結

限制標簽順序的時候可以用A.class_name，也可以用A.nth-of-type(n)。直接從網頁上copy的selector是nth-child(n)，可能會報錯，需要注意。
find_all方法查找特定標簽里的內容時，可以根據class名稱查找，此時class要加一個下劃線class_
總結起來就是，先用beautifulsoap將網頁的內容讀入，再根據select的參數將想要的標簽內容提取出來成為一個list，最后在這些list里再使用各種方法獲取標簽里面的內容就可以了。有的是直接get_text獲取標簽內的文本信息，圖片一般是get('src)等等。當然，根據你拿到的信息，可以再做一些別的字符串處理，最終呈現想要的結果輸出就可以了。

沈閱
20160826

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

作業1.2-爬取商品信息

作業1.2-爬取商品信息

網站

代碼

問題

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

作業1.2-爬取商品信息

網站

代碼

問題

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频