亚洲色精品aⅴ一区区三区,少年阿宾1一72全文目录,少年高潮h跪趴扩张调教喷水文

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷，而將 HTML文檔轉換成 XML文檔后，就可以用 XPath 查找 HTML 節點或元素。

XML 文檔的特點：
XML 文檔中的每個成分都是一個節點。整個文檔是一個根節點；每個 XML 標簽是一個元素節點；包含在 XML 元素中的文本是文本節點；每一個 XML 屬性是一個屬性節點；注釋則屬于注釋節點。
其中，元素節點可以包含任意的元素節點、文本節點或屬性節點，而文本節點或屬性節點則不能包含節點。

XPath語法的特點：
XPath 使用路徑表達式在 XML 文檔中進行導航
XPath 包含一個標準函數庫
XPath 表達式可返回節點集、字符串、邏輯值以及數字。

常用的XPath 開發工具：
1.開源的XPath表達式編輯工具:XMLQuire（僅XML格式文件可用）。
2.Firefox插件 Try XPath。
3.Chrome插件 XPath Helper。推薦！可以直接在網頁上使用xpath定位元素，非常方便。（安裝詳情見參考文獻2）

一、XPath語法介紹

1. 選取節點

下表列出了常用的路徑表達式：

表達式	描述
nodename	選取此節點的所有子節點
/	如果在路徑最前面代表從根節點選取，否則表示選擇某節點的子節點
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置
.	表示當前節點
..	表示當前節點的父節點
@href	節點href屬性的值（/@href：當前節點href屬性的值；//@href：當前節點和子孫節點href屬性的值）
text()	節點的文本內容（/text()：當前節點的文本內容；//text()：當前節點和子孫節點的文本內容）

2.謂語

謂語：用來查找某個特定的節點或者包含某個指定屬性值的節點，被嵌在方括號中。

/bookstore/book[1]：選取屬于 bookstore 子元素的第一個 book 元素。注意位置順序是從1開始的，和python不一樣！
/bookstore/book[last()]：選取屬于 bookstore 子元素的最后一個 book 元素。
/bookstore/book[last()-1]：選取屬于 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]：選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang]：選取擁有 lang 屬性的 title 元素。
//title[@lang='eng']：選取 lang屬性值為'eng'的 title 元素。
/bookstore/book[@price>35.00]：選取 bookstore子元素中滿足條件的book 元素，條件：price屬性的值須大于 35.00。

3.XPath的運算符

加法：+
減法：-
乘法：*
除法：div
=：等于
!=：不等于
<：小于
<=：小于或等于
>：大于
>：大于或等于
or：或
and：與
mod：計算除法的余數

4.XPath的軸

軸可定義相對于當前節點的節點集。
語法：軸名稱::節點[謂語]

常用的軸：

ancestor：選取當前節點的所有先輩節點（父、祖父等）。
ancestor-or-self：選取當前節點的所有先輩節點（父、祖父等）以及當前節點本身。
attribute：選取當前節點的所有屬性。
self：選取當前節點。
child：選取當前節點的所有子節點。
parent：選取當前節點的父節點。
descendant：選取當前節點的所有后代節點（子、孫等）。
descendant-or-self：選取當前節點的所有后代節點（子、孫等）以及當前節點本身。

示例：

//li[@data="one"]/ancestor::div：選取屬性data="one"的li節點的所有div祖先節點。
//li[@data="one"]/ancestor::*：選取屬性data="one"的li標簽的所有祖先節點。
//div[@id="testid"]/attribute::*：選取id="testid"的div節點的所有屬性值。
//div[@id]/self::div[@data-h]/attribute::*：選取含id屬性和data-h屬性的div標簽的所有屬性值
//div[@id="testid"]/child::*：選取id="testid"的div節點的所有子節點。
//li[@data="one"]/parent::ol/li[last()]/text()：選取屬性data="one"的li節點的父節點ol，其最后一個li子節點的文本值。
注意：由于每個元素節點只有唯一的一個父節點，所以“parent::父節點”等價于“parent::*” 。

5.XPath常用函數

contains ()函數：
//div[ contains(@class, 'in') ]：選擇class屬性值中包含有’in’字符串的div節點。
text()函數：節點的文本值
//a[text()='baidu']：選取文本值等于'baidu'的a節點。
//a/text()：獲取a節點文本內容。
last()函數：
/bookstore/book[last()]：選取屬于 bookstore 子節點的最后一個 book 節點。
position()函數：返回節點的索引位置(從1開始)
/bookstore/book[position()<=3]：選取屬于 bookstore 子節點的前三個 book 節點。
starts-with()函數：
//div[starts-with(@class,'in')]：選擇class屬性值以字符串’in’開頭的div節點。
ends-with()函數：
//div[ends-with(@class,'in')]：選擇class屬性值以字符串’in’結尾的div節點。
not()函數：表示否定
//input[@name=‘identity’ and not( contains(@class,‘a’) )]：
選擇屬性name=‘identity’ 并且 class屬性值中不包含字符’a’的input節點。
not()函數通常與返回值為true or false的函數組合起來用，比如contains(),starts-with()等。但有一種特別情況需注意一下：//input[@id]：匹配出含有id屬性的input節點；//input[not(@id)]：匹配出不含有id屬性的input節點。

6.其他

1.通配符
使用通配符“*”可用來選取未知的 XML 元素。
*：匹配任何元素節點。
@*：匹配任何屬性節點。
node()：匹配任意類型的節點（元素、屬性、文本、注釋以及根節點）。

2.選取多條路徑
通過在路徑表達式中使用“|”運算符，可以選取多條路徑。
//book/title | //book/price：選取 book 元素的所有 title 和 price 元素。
//title | //price：選取文檔中的所有 title 和 price 元素。

二、xpath在python中的具體運用

lxml庫是一個XML、HTML的解析器，主要用于解析和提取XML、HTML數據。lxml庫先將HTML文檔解析，然后就可以使用XPath 搜索或遍歷HTML文檔中的節點。

使用lxml解析HTML數據的兩種方式：

1.解析HTML字符串：

from lxml import etree

# HTML字符串
text = '''
<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <name>杰克羅琳</name>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>
'''

# 使用HTML()方法解析字符串
# HTML()默認使用的就是HTML解析器，如果遇到不規范的HTML代碼，會自動補全。
html_element = etree.HTML(text)

# 解析后就可以調用xpath方法了
name = html_element.xpath('//book/name/text()')
print(name)


# 返回值：
# ['杰克羅琳']

2.直接解析HTML文件：

from lxml import etree

# 創建HTML解析器，指定解析器使用的編碼格式(需要和文件編碼格式一致)
parser = etree.HTMLParser(encoding='utf-8')

# parse()默認的是XML解析器，在解析HTML代碼時，如果HTML代碼不規范,則會報錯！
# 因此需要指定解析器為HTML解析器，這樣不規范的HTML代碼，會自動補全！
html_element = etree.parse('./test.html', parser=parser)

#解析后就可以調用xpath方法了
name = html_element.xpath('//book/name/text()')
print(name)


# 返回值：
# ['杰克羅琳']

注意：
1.xpath返回的永遠是列表，即使沒有匹配到任何元素也返回的是空列表。
2.根節點和任意元素節點都可以使用xpath方法去搜索、遍歷其子節點。

# tostring()方法可以將節點對象轉換成字節，解碼后就可以查看節點內容
author_ele = html_element.xpath('//book/author')[0]
result = etree.tostring(author_ele, encoding='utf-8').decode('utf-8')
print(result)


# 返回值：
# <author>J K. Rowling</author>&#13;

參考文獻：

HTML和XML的區別
XPath Helper插件安裝
XPath 教程

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python爬蟲之數據解析（XPath）

Python爬蟲之數據解析（XPath）

一、XPath語法介紹

1. 選取節點

2.謂語

3.XPath的運算符

4.XPath的軸

5.XPath常用函數

6.其他

二、xpath在python中的具體運用

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python爬蟲之數據解析（XPath）

一、XPath語法介紹

1. 選取節點

2.謂語

3.XPath的運算符

4.XPath的軸

5.XPath常用函數

6.其他

二、xpath在python中的具體運用

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频