scrapy爬蟲時如何利用xpath爬取某個div里所有p的內容

當我們想爬取div class="articlebody"下p中所有文本的時候,如果這樣寫

item['body'] = (response.xpath('//div[@class="articleBody"]/ptext()').extract()[0])

會發現僅僅是第一個p中的內容,而不是所有的,此時應該利用的是for循環。

divs=response.xpath('//div[@class="articleBody"]')

body=""

for p in divs.xpath('.//p/text()'):

body=body+ p.extract().strip()

item['body']=body

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容