一、python爬蟲基礎與html文檔解析

  1. 爬蟲是什么
    爬蟲是一段用來抓取互聯網數據的一段程序,給定一個位置(url)為起點,爬蟲從這個url開始,爬去互聯網上的網頁數據,爬蟲又叫spider,爬行在互聯網上的一只蜘蛛。爬取數據是一個不斷進行的過程,通過種子Url獲取基本網頁,從獲取的數據中提取出需要的url,循環獲取數據,要完成爬蟲的功能,最重要的操作就是數據獲取與數據處理了,python中用于獲取網絡數據的庫有很多,用戶解析數據的庫也有很多,非常適合于編寫爬蟲程序。
    通用爬蟲結構如下


  2. python中有助于爬蟲操作的庫

    • requests(請求)
      相信requests大家都不陌生,requests是用來方便我們執行網絡操作的第三方庫,相比與標準庫urllib、urllib2可以讓我們操作網絡數據時十分方便
    • Beautiful Soup(解析)
      beautiful soup是用于從html、xml數據中提取數據的工具庫,讓用戶免于在復雜的正則表達式中掙扎,通過一些接口可以直接從文檔中篩選出需要的數據,雖然如此,學習正則表達式還是很有必要的
  3. beautiful soup庫簡單使用(html解析)

    • 安裝
      bs4屬于第三方庫,使用之前需要先安裝,使用pip
      pip install beautifulsoup4 --user
      
      導入該庫時
      import bs4
      
    • 使用文件對象或html文本字符串初始化BeautifulSoup對象
      In [3]: html_doc = """
         ...: <html><head><title>The Dormouse's story</title></head>
         ...: <body>
         ...: <p class="title"><b>The Dormouse's story</b></p>
         ...: 
         ...: <p class="story">Once upon a time there were three little sisters; and their names were
         ...: <a  class="sister" id="link1">Elsie</a>,
         ...: <a  class="sister" id="link2">Lacie</a> and
         ...: <a  class="sister" id="link3">Tillie</a>;
         ...: and they lived at the bottom of a well.</p>
         ...: 
         ...: <p class="story">...</p>
         ...: """
      In [5]: soup = BeautifulSoup(html_doc, 'html.parser')
      
    • 可以使用標準縮進格式輸出html文本
      In [6]: print soup.prettify()
      
    • soup將htmldoc解析為一顆類似于dom的樹,可以通過.標識符訪問其中的節點,通過[]標識符訪問節點的屬性,通過.string或.strings得到該結點內容,節點也叫tag
       In [7]: soup.head.title
       Out[7]: <title>The Dormouse's story</title>
       
       In [8]: soup.p['class']
       Out[8]: [u'title']
       
       In [9]: soup.a['href']
       Out[9]: u'http://example.com/elsie'
       
       In [14]: soup.p.name
       Out[14]: u'p'
      
       In [10]: soup.a.string
       Out[10]: u'Elsie'
       
       In [11]: for info in soup.body.strings:
           ...:     print info
           ...:     
      
      獲取所有文本內容
      print soup.get_text()
      
      通過attrs屬性訪問tag的所有屬性
      In [16]: soup.a
      Out[16]: <a class="sister"  id="link1">Elsie</a>
      
      In [17]: soup.a.attrs  
      Out[17]: {u'class': [u'sister'], u'href': u'http://example.com/elsie', u'id': u'link1'}
      
    • 遍歷文檔樹
      • 使用children和contents屬性獲取直接子節點,使用descendant屬性獲取子孫節點。注意contents返回列表
        In [20]: for child in soup.body.children:
               ...:     print child
               ...:     
        In [22]: for child in soup.body.descendants:
              ...:     print child
              ...:     
        In [21]: soup.body.contents
        Out[21]: 
        [u'\n',<p class="title"><b>The Dormouse's story</b></p>,
        
      • 使用string,strings,stripped_strings獲取節點內容,后兩者返回迭代器,用戶循環迭代
        In [23]: soup.a.string
        Out[23]: u'Elsie'
        
        In [27]: for string in soup.a.stripped_strings:
              ...:     print string
              ...:     
        Elsie
        
      • 父節點parent和所有父節點parents,兄弟節點next_sibling\previous_sibling,以及前后節點next_element\previous_element。注意,當得到一個tag時,打印出來總是包含其子節點的
        soup.a.parent
        for item in soup.s.parents:
            print item
        
         In [32]: soup.a
         Out[32]: <a class="sister"  id="link1">Elsie</a>
         
         In [33]: soup.a.next_sibling 
         Out[33]: u',\n'
         
         In [34]: soup.a.next_sibling.next_sibling
         Out[34]: <a class="sister"  id="link2">Lacie</a>
        
         In [36]: soup.a.next_element
         Out[36]: u'Elsie'
         
         In [37]: soup.a.next_element.next_element
         Out[37]: u',\n'
         
         In [38]: soup.a.next_element.next_element.next_element
         Out[38]: <a class="sister"  id="link2">Lacie</a>
         
         In [39]: soup.a.next_element.next_element.next_element.next_element
         Out[39]: u'Lacie'
        
    • 搜索文檔樹使用find_all.搜索當前tag的所有子節點,查找符合要求的節點。參數name表示節點名稱,attrs表示節點具有的屬性,也可以在該位置傳入正則表達式,soup將以match的方式匹配節點,True可以匹配任何值。attrs指定了該節點需要具備的屬性及其值。kwargs,該參數會被當作指定tag的屬性來搜索
      soup.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
      In [41]: soup.find_all('head')
      Out[41]: [<head><title>The Dormouse's story</title></head>]
      
      In [42]: soup.find_all('a',attrs={'id':'link1'})
      Out[42]: [<a class="sister"  id="link1">Elsie</a>]
      In [43]: soup.find_all(['a', 'title'])
      Out[43]: 
      [<title>The Dormouse's story</title>,
       <a class="sister"            id="link1">Elsie</a>,
       <a class="sister"  id="link2">Lacie</a>,
       <a class="sister"  id="link3">Tillie</a>]
      
      kwargs參數舉例。
      搜索屬性
      In [44]: soup.find_all(id='link1')
      Out[44]: [<a class="sister"  id="link1">Elsie</a>]
      
      使用class
      In [45]: soup.find_all(class_='sister')
      Out[45]: 
      [<a class="sister"  id="link1">Elsie</a>,
       <a class="sister"  id="link2">Lacie</a>,
       <a class="sister"  id="link3">Tillie</a>]
      
      text參數用于搜索文檔中字符串的內容
      In [48]: soup.find_all(text=re.compile('.*?l.*?', re.I))
      Out[48]: 
      [u'Once upon a time there were three little sisters; and their names were\n',
       u'Elsie',
       u'Lacie',
       u'Tillie',
       u';\nand they lived at the bottom of a well.']
      
    • 使用css選擇器
       In [49]: soup.select('head > title')
       Out[49]: [<title>The Dormouse's story</title>]
       
       In [50]: soup.select('p > # link1')
       Out[50]: []
       
       In [51]: soup.select('p > #link1')
       Out[51]: [<a class="sister"  id="link1">Elsie</a>]
       
       In [52]: soup.select('p > .sister')
       Out[52]: 
       [<a class="sister"  id="link1">Elsie</a>,
        <a class="sister"  id="link2">Lacie</a>,
        <a class="sister"  id="link3">Tillie</a>]
       
       In [53]: soup.select('#link1 ~ .sister')
       Out[53]: 
       [<a class="sister"  id="link2">Lacie</a>,
        <a class="sister"  id="link3">Tillie</a>]
       
       In [54]: soup.select('#link1 + .sister')
       Out[54]: [<a class="sister"  id="link2">Lacie</a>]
       
       In [55]: soup.select('#link1')
       Out[55]: [<a class="sister"  id="link1">Elsie</a>]
       
       In [56]: soup.select('title')
       Out[56]: [<title>The Dormouse's story</title>]
      
  4. 使用xpath提取html文檔中的節點元素

    1. 簡介
      xpath是用來從xml文檔中提取信息的工具,但是他也可以很好的工作在html文檔中。
    2. 基本概念與語法解析
    • 節點
      節點的概念較容易理解,html文檔被解析為樹狀結構,每個從根,到樹葉,都是一個節點。節點類型包括文檔節點,代表整個文檔樹,元素節點,代表某個標簽,屬性節點,代表某個元素的屬性,文本節點,某節點的內容。節點的父子關系可以繼承,還有兄弟節點,同胞,先輩,后代節點,根據名稱理解

    • 語法
      xpath語法規定了選取節點依據的規則,選取節點時,根據給出的路徑或步來選取,常見路徑表達式如下



      下面是一些實例

      • classroom 選取classroom的所有子節點
      • /classroom 選取根元素classroom
      • classroom/student 選取classroom子元素中的student元素
      • //student 選取所有student元素
      • classroom//student 選取classroom后代元素的student元素
      • @lang 選取名稱為lang的所有屬性

      使用謂語限定選擇條件,謂語寫在中括號中,用于進一步限制選擇條件。在選擇時,可以使用通配符和“|”

      • classroom/student[1] 選擇classroom的第一個student子元素
      • classroom/student[last()]選擇classroom的最后一個student元素
      • classroom/student[position() < 3]選擇classroom的前兩個student元素
      • //name[@lang]選取所有含有屬性lang的name元素
      • //name[@lang='en']選取lang屬性為’en'的元素
      • classroom//student[age > 20]選取classroom的所有student元素,并且student元素的age元素的值大于20
      • //* 選取所有
      • //student/name | //student/age 選取所有student的name和age元素
    • xpath中軸的概念
      軸定義了所選節點與當前節點之間的樹關系。xpath的選擇路徑既可以是相對的,也可以是絕對的。絕對路徑以/開頭,相對路徑以元素開頭。step/step/step,其中step語法詳細格式為軸名稱::節點測試[謂語]。xpath中的軸包括
      child子元素、
      parent父節點、
      ancestor先輩節點、
      ancestor-of-self先輩or本身、
      descendant后代節點、
      preceding當前節點之前的所有節點、
      following當前節點之后的所有節點、
      preceding-sibling當前節點前的所有同級節點
      following-sibling當前節點后的所有同級節點

      • 下面是一些實例
        • /classroom/child::student選取classroom子元素的所有student節點
        • //student/descentdant::id選取以student節點為父節點的id元素
    • xpath中的運算符
      xpath中的運算符主要用在謂語的位置判斷比較元素的值
      //student[age > 3]
      類似的我們可以使用各種判斷符號來判斷,還可以使用or、and、mod表示邏輯

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,001評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,786評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,986評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,204評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,964評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,354評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,410評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,554評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,106評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,918評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,093評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,648評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,342評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,755評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,009評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,839評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,107評論 2 375