三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

^{<blockquote id="wsfb6"></blockquote>}

^{<blockquote id="wsfb6"></blockquote>}

<bdo id="wsfb6"><rp id="wsfb6"></rp></bdo>

登錄注冊寫文章

python2.7用requests和xpath抓取煎蛋網(wǎng)段子

python2.7用requests和xpath抓取煎蛋網(wǎng)段子

這里我簡單的爬取了煎蛋網(wǎng)的段子，煎蛋網(wǎng)有些段子會被屏蔽的現(xiàn)象產(chǎn)生，所以要對這塊東西進(jìn)行處理。

屏蔽段子處理

下面就是按常規(guī)去處理，附上具體代碼

import requests

froml xml import etree

url='http://jandan.net/duan'

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate',

'Accept-Language':'zh-CN,zh;q=0.8',

'Cache-Control':'no-cache',

'Connection':'keep-alive',

'Host':'jandan.net',

'Pragma':'no-cache',

'Referer':'http://jandan.net/qa',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36',

}

html=requests.get(url,headers=headers);

html.encoding="utf-8"

root=etree.HTML(html.text)

result=root.xpath("http://div[@class='row']")

for i in range(len(result)):

author=result[i].xpath(".//div[@class='author']/strong/text()")

text=re sult[i].xpath(".//div[@class='text']")[0]

if(text.xpath("./p[@class='bad_content']")):

text=result[i].xpath(".//div[@class='text']/p[2]/text()")

else:

text=result[i].xpath(".//div[@class='text']/p/text()")

print '作者',author[0],'內(nèi)容',text[0]

上面的xpath上的.//div[@class='author']/strong/text()解釋，就是在class為row的div下找到class為author的div，再在strong標(biāo)簽下，得到標(biāo)簽中的字。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

Spring Cloud
Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具（例如配置管理，服務(wù)發(fā)現(xiàn)，斷路器，智...
卡卡羅2017閱讀 134,923評論 18贊 139
一小時(shí)入門 Python 3 網(wǎng)絡(luò)爬蟲
聲明：本文講解的實(shí)戰(zhàn)內(nèi)容，均僅用于學(xué)習(xí)交流，請勿用于任何商業(yè)用途！一、前言強(qiáng)烈建議：請?jiān)陔娔X的陪同下，閱讀本文...
Bruce_Szh閱讀 12,769評論 6贊 28
python爬蟲里信息提取的核心方法: Beautifulsoup Xpath 正則表達(dá)式
20170531 這幾天重新拾起了爬蟲，算起來有將近5個(gè)月不碰python爬蟲了。對照著網(wǎng)上的程序和自己以前寫的...
八神蒼月閱讀 14,253評論 3贊 44
職場上的那些事之有些事情不知道反比知道好
我們業(yè)務(wù)部一共有7個(gè)人，一個(gè)經(jīng)理（老板的女兒），兩個(gè)跟單的（我，歆姐），四個(gè)業(yè)務(wù)員（邱姐，芳兒，經(jīng)理的女兒...
小耳蝸閱讀 264評論 0贊 2
就算世界如此薄情，也要按照自己的節(jié)奏，多情地活著—《釜山行》
電影《浮山行》的熱映，讓許多人對人性的自私冷漠而憤慨，同時(shí)也感動(dòng)于那些勇于犧牲自我，成全他人的勇者。我是戰(zhàn)戰(zhàn)兢兢...
35f919867dcf閱讀 762評論 4贊 7

贊1贊

贊賞

手機(jī)看全文

主站蜘蛛池模板：库车县| 津南区| 农安县| 武安市| 高陵县| 沛县| 凭祥市| 于田县| 进贤县| 博爱县| 耒阳市| 内江市| 临夏县| 南京市| 比如县| 涞水县| 微博| 浮山县| 定远县| 台安县| 桦川县| 铁岭县| 渭源县| 荔浦县| 烟台市| 冀州市| 资兴市| 密山市| 屏东县| 竹山县| 宝清县| 元谋县| 衡东县| 延川县| 德州市| 桃园县| 肇庆市| 巴楚县| 丹阳市| 兴山县| 佛学|

<xmp id="bdb6f"></xmp>

<cite id="bdb6f"><rp id="bdb6f"><form id="bdb6f"></form></rp></cite>

<cite id="bdb6f"></cite>