asian朝鲜妇毛pics,在情趣店上班被爆cao翻了,女人被狂躁c到高潮喷水的原

爬蟲是什么
爬蟲是一段用來抓取互聯網數據的一段程序，給定一個位置（url）為起點，爬蟲從這個url開始，爬去互聯網上的網頁數據，爬蟲又叫spider，爬行在互聯網上的一只蜘蛛。爬取數據是一個不斷進行的過程，通過種子Url獲取基本網頁，從獲取的數據中提取出需要的url，循環獲取數據，要完成爬蟲的功能，最重要的操作就是數據獲取與數據處理了，python中用于獲取網絡數據的庫有很多，用戶解析數據的庫也有很多，非常適合于編寫爬蟲程序。
通用爬蟲結構如下
python中有助于爬蟲操作的庫
- requests（請求）
  相信requests大家都不陌生，requests是用來方便我們執行網絡操作的第三方庫，相比與標準庫urllib、urllib2可以讓我們操作網絡數據時十分方便
- Beautiful Soup（解析）
  beautiful soup是用于從html、xml數據中提取數據的工具庫，讓用戶免于在復雜的正則表達式中掙扎，通過一些接口可以直接從文檔中篩選出需要的數據，雖然如此，學習正則表達式還是很有必要的

beautiful soup庫簡單使用(html解析）

安裝
bs4屬于第三方庫，使用之前需要先安裝，使用pip
```
pip install beautifulsoup4 --user
```
導入該庫時
```
import bs4
```

使用文件對象或html文本字符串初始化BeautifulSoup對象

In [3]: html_doc = """
   ...: <html><head><title>The Dormouse's story</title></head>
   ...: <body>
   ...: <p class="title"><b>The Dormouse's story</b></p>
   ...: 
   ...: <p class="story">Once upon a time there were three little sisters; and their names were
   ...: <a  class="sister" id="link1">Elsie</a>,
   ...: <a  class="sister" id="link2">Lacie</a> and
   ...: <a  class="sister" id="link3">Tillie</a>;
   ...: and they lived at the bottom of a well.</p>
   ...: 
   ...: <p class="story">...</p>
   ...: """
In [5]: soup = BeautifulSoup(html_doc, 'html.parser')

可以使用標準縮進格式輸出html文本
```
In [6]: print soup.prettify()
```

soup將htmldoc解析為一顆類似于dom的樹，可以通過.標識符訪問其中的節點，通過[]標識符訪問節點的屬性，通過.string或.strings得到該結點內容，節點也叫tag

 In [7]: soup.head.title
 Out[7]: <title>The Dormouse's story</title>
 
 In [8]: soup.p['class']
 Out[8]: [u'title']
 
 In [9]: soup.a['href']
 Out[9]: u'http://example.com/elsie'
 
 In [14]: soup.p.name
 Out[14]: u'p'

 In [10]: soup.a.string
 Out[10]: u'Elsie'
 
 In [11]: for info in soup.body.strings:
     ...:     print info
     ...:

獲取所有文本內容

print soup.get_text()

通過attrs屬性訪問tag的所有屬性

In [16]: soup.a
Out[16]: <a class="sister"  id="link1">Elsie</a>

In [17]: soup.a.attrs  
Out[17]: {u'class': [u'sister'], u'href': u'http://example.com/elsie', u'id': u'link1'}

遍歷文檔樹

使用children和contents屬性獲取直接子節點，使用descendant屬性獲取子孫節點。注意contents返回列表

In [20]: for child in soup.body.children:
       ...:     print child
       ...:     
In [22]: for child in soup.body.descendants:
      ...:     print child
      ...:     
In [21]: soup.body.contents
Out[21]: 
[u'\n',<p class="title"><b>The Dormouse's story</b></p>,

使用string，strings，stripped_strings獲取節點內容，后兩者返回迭代器，用戶循環迭代

In [23]: soup.a.string
Out[23]: u'Elsie'

In [27]: for string in soup.a.stripped_strings:
      ...:     print string
      ...:     
Elsie

父節點parent和所有父節點parents，兄弟節點next_sibling\previous_sibling，以及前后節點next_element\previous_element。注意，當得到一個tag時，打印出來總是包含其子節點的

soup.a.parent
for item in soup.s.parents:
    print item

 In [32]: soup.a
 Out[32]: <a class="sister"  id="link1">Elsie</a>
 
 In [33]: soup.a.next_sibling 
 Out[33]: u',\n'
 
 In [34]: soup.a.next_sibling.next_sibling
 Out[34]: <a class="sister"  id="link2">Lacie</a>

 In [36]: soup.a.next_element
 Out[36]: u'Elsie'
 
 In [37]: soup.a.next_element.next_element
 Out[37]: u',\n'
 
 In [38]: soup.a.next_element.next_element.next_element
 Out[38]: <a class="sister"  id="link2">Lacie</a>
 
 In [39]: soup.a.next_element.next_element.next_element.next_element
 Out[39]: u'Lacie'

搜索文檔樹使用find_all.搜索當前tag的所有子節點，查找符合要求的節點。參數name表示節點名稱，attrs表示節點具有的屬性，也可以在該位置傳入正則表達式，soup將以match的方式匹配節點，True可以匹配任何值。attrs指定了該節點需要具備的屬性及其值。kwargs，該參數會被當作指定tag的屬性來搜索

soup.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
In [41]: soup.find_all('head')
Out[41]: [<head><title>The Dormouse's story</title></head>]

In [42]: soup.find_all('a',attrs={'id':'link1'})
Out[42]: [<a class="sister"  id="link1">Elsie</a>]
In [43]: soup.find_all(['a', 'title'])
Out[43]: 
[<title>The Dormouse's story</title>,
 <a class="sister"            id="link1">Elsie</a>,
 <a class="sister"  id="link2">Lacie</a>,
 <a class="sister"  id="link3">Tillie</a>]

kwargs參數舉例。
搜索屬性

In [44]: soup.find_all(id='link1')
Out[44]: [<a class="sister"  id="link1">Elsie</a>]

使用class

In [45]: soup.find_all(class_='sister')
Out[45]: 
[<a class="sister"  id="link1">Elsie</a>,
 <a class="sister"  id="link2">Lacie</a>,
 <a class="sister"  id="link3">Tillie</a>]

text參數用于搜索文檔中字符串的內容

In [48]: soup.find_all(text=re.compile('.*?l.*?', re.I))
Out[48]: 
[u'Once upon a time there were three little sisters; and their names were\n',
 u'Elsie',
 u'Lacie',
 u'Tillie',
 u';\nand they lived at the bottom of a well.']

使用css選擇器

 In [49]: soup.select('head > title')
 Out[49]: [<title>The Dormouse's story</title>]
 
 In [50]: soup.select('p > # link1')
 Out[50]: []
 
 In [51]: soup.select('p > #link1')
 Out[51]: [<a class="sister"  id="link1">Elsie</a>]
 
 In [52]: soup.select('p > .sister')
 Out[52]: 
 [<a class="sister"  id="link1">Elsie</a>,
  <a class="sister"  id="link2">Lacie</a>,
  <a class="sister"  id="link3">Tillie</a>]
 
 In [53]: soup.select('#link1 ~ .sister')
 Out[53]: 
 [<a class="sister"  id="link2">Lacie</a>,
  <a class="sister"  id="link3">Tillie</a>]
 
 In [54]: soup.select('#link1 + .sister')
 Out[54]: [<a class="sister"  id="link2">Lacie</a>]
 
 In [55]: soup.select('#link1')
 Out[55]: [<a class="sister"  id="link1">Elsie</a>]
 
 In [56]: soup.select('title')
 Out[56]: [<title>The Dormouse's story</title>]

使用xpath提取html文檔中的節點元素
1. 簡介
  xpath是用來從xml文檔中提取信息的工具，但是他也可以很好的工作在html文檔中。
2. 基本概念與語法解析
- 節點
  節點的概念較容易理解，html文檔被解析為樹狀結構，每個從根，到樹葉，都是一個節點。節點類型包括文檔節點，代表整個文檔樹，元素節點，代表某個標簽，屬性節點，代表某個元素的屬性，文本節點，某節點的內容。節點的父子關系可以繼承，還有兄弟節點，同胞，先輩，后代節點，根據名稱理解
- 語法
  xpath語法規定了選取節點依據的規則，選取節點時，根據給出的路徑或步來選取，常見路徑表達式如下
  
  下面是一些實例
  - classroom 選取classroom的所有子節點
  - /classroom 選取根元素classroom
  - classroom/student 選取classroom子元素中的student元素
  - //student 選取所有student元素
  - classroom//student 選取classroom后代元素的student元素
  - @lang 選取名稱為lang的所有屬性
  使用謂語限定選擇條件，謂語寫在中括號中，用于進一步限制選擇條件。在選擇時，可以使用通配符和“|”
  - classroom/student[1] 選擇classroom的第一個student子元素
  - classroom/student[last()]選擇classroom的最后一個student元素
  - classroom/student[position() < 3]選擇classroom的前兩個student元素
  - //name[@lang]選取所有含有屬性lang的name元素
  - //name[@lang='en']選取lang屬性為’en'的元素
  - classroom//student[age > 20]選取classroom的所有student元素，并且student元素的age元素的值大于20
  - //* 選取所有
  - //student/name | //student/age 選取所有student的name和age元素
- xpath中軸的概念
  軸定義了所選節點與當前節點之間的樹關系。xpath的選擇路徑既可以是相對的，也可以是絕對的。絕對路徑以/開頭，相對路徑以元素開頭。step/step/step,其中step語法詳細格式為軸名稱::節點測試[謂語]。xpath中的軸包括
  child子元素、
  parent父節點、
  ancestor先輩節點、
  ancestor-of-self先輩or本身、
  descendant后代節點、
  preceding當前節點之前的所有節點、
  following當前節點之后的所有節點、
  preceding-sibling當前節點前的所有同級節點
  following-sibling當前節點后的所有同級節點
  - 下面是一些實例
    - /classroom/child::student選取classroom子元素的所有student節點
    - //student/descentdant::id選取以student節點為父節點的id元素
- xpath中的運算符
  xpath中的運算符主要用在謂語的位置判斷比較元素的值
  //student[age > 3]
  類似的我們可以使用各種判斷符號來判斷，還可以使用or、and、mod表示邏輯

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一、python爬蟲基礎與html文檔解析

一、python爬蟲基礎與html文檔解析

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

一、python爬蟲基礎與html文檔解析

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频