python爬蟲之XPath解析

XPath 簡介:

  • XPath 是一門在 XML 文檔中查找信息的語言

什么是 XPath?

  • XPath 使用路徑表達(dá)式在 XML 文檔中進(jìn)行導(dǎo)航
  • XPath 包含一個標(biāo)準(zhǔn)函數(shù)庫
  • XPath 是 XSLT 中的主要元素
  • XPath 是一個 W3C 標(biāo)準(zhǔn)

事例:

    etree_html = etree.HTML(html)
    print(etree_html)
    # 匹配所有節(jié)點 //*
    result = etree_html.xpath('//*')
    # 匹配所有子節(jié)點 //a     文本獲取:text()
    result = etree_html.xpath('//a/text()')
    print(result)
    # 查找元素子節(jié)點 /
    result_article = etree_html.xpath('//div[@class="pic"]/p/text()')  #獲取文章
    print(result_article)

    from_name = etree_html.xpath('//div[@class="source"]//span[@class="from"]/a/text()')  # 獲取名字
    from_address = etree_html.xpath('//div[@class="source"]//span[@class="from"]/a/@href')  # 獲取地址
    # 查找元素所有子孫節(jié)點 //
    result_title = etree_html.xpath('//div[@class="channel-item"]//h3/a/text()')  # 獲取標(biāo)題
    # print(result_son)
    # 父節(jié)點 ..
    result = etree_html.xpath('//span[@class="pubtime"]/../span/a/text()')
    print(result)
    # 屬性匹配 [@class="xxx"]
    # 文本匹配 text() 獲取所有文本//text()
    result = etree_html.xpath('//div[@class="article"]//text()')
    print(result)
    # 屬性獲取 @href
    result = etree_html.xpath('//div[@class="bd"]/h3/a/@href')
    print(result)
    # 屬性多值匹配 contains(@class 'xx')
    result = etree_html.xpath('//div[contains(@class, "grid-16-8")]//div[@class="likes"]/text()[1]')
    print(result)
    # 多屬性匹配 or, and, mod, //book | //cd, + - * div = != < > <= >=
    result = etree_html.xpath('//span[@class="pubtime" and contains(text(), "09-07")]/text()')
    print(result)
    # 按序選擇 [1] [last()] [poistion() < 3] [last() -2]
    # 節(jié)點軸
    //li/ancestor::*  所有祖先節(jié)點
    //li/ancestor::div div這個祖先節(jié)點
    //li/attribute::* attribute軸,獲取li節(jié)點所有屬性值
    //li/child::a[@href="link1.html"]  child軸,獲取直接子節(jié)點
    //li/descendant::span 獲取所有span類型的子孫節(jié)點
    //li/following::* 選取文檔中當(dāng)前節(jié)點的結(jié)束標(biāo)記之后的所有節(jié)點
    //li/following-sibling::*     選取當(dāng)前節(jié)點之后的所用同級節(jié)點
    # 同時取到節(jié)點和元素
    result = etree_html.xpath('//div[@class="channel-item"] | //span[@class="pubtime"]/../span/a/text()')

推薦一款插件 Xpath Helper:

Xpath Helper 是一種結(jié)構(gòu)化網(wǎng)頁元素選擇器,支持列表和單節(jié)點數(shù)據(jù)獲取,
它可以快速地定位網(wǎng)頁元素。
對比 Beautiful Soup,由于 Xpath 網(wǎng)頁元素查找性能更有優(yōu)勢;Xpath 相比正則表達(dá)式編寫起來更方便。
編寫 Xpath 之后會實時顯示匹配的數(shù)目和對應(yīng)的位置,方便我們判斷語句是否編寫正確。


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,836評論 6 540
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,275評論 3 428
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,904評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,633評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 72,368評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,736評論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,740評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,919評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,481評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,235評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,427評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,968評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,656評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,055評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,348評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,160評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,380評論 2 379

推薦閱讀更多精彩內(nèi)容

  • XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷,而將...
    哈耶卡卡閱讀 4,918評論 0 1
  • 爬蟲是什么爬蟲是一段用來抓取互聯(lián)網(wǎng)數(shù)據(jù)的一段程序,給定一個位置(url)為起點,爬蟲從這個url開始,爬去互聯(lián)網(wǎng)上...
    zhile_doing閱讀 703評論 0 0
  • # XML復(fù)習(xí) ## 第一章 ## 思考題 **什么是XML?** XML是可擴(kuò)展性標(biāo)記語言,XML是標(biāo)準(zhǔn)通用標(biāo)記...
    冷漠鐵錘丁富貴閱讀 823評論 0 0
  • 離開,莫名的憂傷 相見,莫名的傷感 我們離開的時候,總是思念你的存在 我們相見的時候,總是害怕哪些過往的往事 離開...
    文情木子閱讀 124評論 0 5
  • 今天是2018年7月16日 星期一 距3月25號下山已過了112天 【美好的一天,從心開始】 分享: 你的人生使命...
    晴息閱讀 254評論 0 0