一個簡單的網絡爬蟲

什么是網絡爬蟲

簡單的說，網絡爬蟲就是一種自動抓去互聯網上資源的程序。

簡單的網絡爬蟲

簡單的網絡爬蟲原理就是使用特定的 url 作為種子，通過一定的規則去獲取網頁上的所需要的信息和新的 url，并對新的 url 進行爬取。

簡單的網絡爬蟲的架構

如下圖，是簡單網絡爬蟲的主要架構。主要分為三部分： url解析器，網頁下載器，網頁解析器。

pp1-簡單的爬蟲架構.PNG

url 解析器：負責管理待抓取的 url 集合以及抓取的 url 集合。其中包括：防止重復抓取，防止循環抓取等。
網頁下載器：將已經抓取的 url 對應的網頁下載下來，供給網頁解析器使用。
網頁解析器：主要的功能是獲取下載的網頁中的目標數據以后生成新的url 集合給 url 管理器。

簡單網絡爬蟲的工作流程

簡單爬蟲的運行流程.PNG

寫一個簡單的網絡爬蟲

以抓取百度百科中的 python 詞條頁面的超鏈接為例，代碼使用python語言。

url 管理器

url 管理器主要是管理 url 集合，這里使用了 python 的 set() 集合，因為 set() 里面的不存在相同元素。

class UrlManager(object):
def __init__(self):
    #創建待爬取和已爬取url集合
    self.new_urls = set()
    self.old_urls = set()
#添加新的url到待爬取url集合    
def add_new_url(self,url):
    if url is None:
        return
    if url not in self.new_urls and url not in self.old_urls:
        self.new_urls.add(url)
#判斷是否待爬取集合為空        
def has_new_url(self):
    return len(self.new_urls) != 0
 #從待爬取集合中取出一個url 
def get_new_url(self):
    new_url = self.new_urls.pop()
    self.old_urls.add(new_url)
    return new_url
#往待爬取集合添加新的url
def add_new_urls(self,urls):
    if urls is None or len(urls) == 0:
        return 
    for url in urls:
        self.add_new_url(url)

網頁下載器

這里是使用 python 的基礎庫 urllib2.urlopen() 方法下載 url對于網頁。

import urllib2
class HtmlDownloader(object):
def download(self,url):
    if url is None:
        return None
    #直接請求
    response = urllib2.urlopen(url)
    #獲取狀態碼，返回200代表下載成功
    if response.getcode()!= 200:
        return None;

    return response.read()

網頁解析器

這里使用了python 的庫— BeautifulSoup，其主要的功能是從網頁抓取數據，之后從抓取到的數據找到目標數據以及新的新的url集合給url管理器。代碼如下：

from bs4 import BeautifulSoup
import re
import urlparse

class HtmlParse(object):
      #使用BeautifulSoup解析網頁下載器下載的網頁數據
      def parse(self,page_url,html_cont):
            if page_url is None or html_cont is None:
               return
            soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf8')
            #獲取新的url集合
            new_urls = self._get_new_urls(page_url,soup)
            #獲取目標數據
            new_data = self._get_new_data(page_url,soup)
            return new_urls,new_data
        #獲取新的待爬取url
        def _get_new_urls(self, page_url, soup):
            new_urls = set()
            #使用正則表達式從BeautifulSoup獲取的數據中找到新的url
            #頁面的url格式/item/%E8%9C%98%E8%9B%9B/8135707
            #這里的soup.find_all() 可獲取全部符合條件的標簽對象
            links = soup.find_all('a',href =re.compile(r"/item/[%A_Z0_9]+"))
            for link in links:
            new_url = link['href']
            #生成完整的的url：http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707
            new_full_url = urlparse.urljoin(page_url,new_url)
            new_urls.add(new_full_url)
            return new_urls
        #獲取目標數據，這里只是獲取了標簽<dd class="lemmaWgt-lemmaTitle-title">和<div class_="lemma-summary">中的內容
        def _get_new_data(self, page_url, soup):
            res_data = {}
            #url
            res_data['url'] = page_url
            #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
            #這里的soup.find() 將獲取第一個符合條件的標簽對象
            title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1") 
            res_data["title"] = title_node.getText()
            #<div class="lemma-summary" label-module="lemmaSummary">
            #這里的soup.find() 將獲取第一個符合條件的標簽對象
            summary_node = soup.find("div",class_="lemma-summary")
            res_data["summary"] = summary_node.getText()
            return res_data

數據輸出

這里只是將獲取的數據輸出到html文件上，當然也可以輸出到其他地方如數據庫，本地文件，看具體需要了。

 class HtmlOutputer(object):
def __init__(self):
    self.datas = []

def collect_data(self,data):
    if data is None:
        return
    self.datas.append(data)
    
def output_html(self):
    fout = open('output.html','w')
    fout.write("<html>")
    fout.write("<body>")
    fout.write("<table>")
    
    #默認是ascii，為了防止中文亂碼，需要轉成utf8
    for data in self.datas:
        fout.write("<tr>")
        fout.write("<td>%s</td>" % data['url'])
        fout.write("<td>%s</td>" % data['title'].encode('utf8'))
        fout.write("<td>%s</td>" % data['summary'].encode('utf8'))
        fout.write("</tr>")
        
    fout.write("</table>")
    fout.write("</body>")
    fout.write("</html>")

最后，將所有的類連接起來：

#不要忘記引入其他類
from baike_py import html_downloader, html_outputer, html_parser
from baike_py import url_manager

class SpiderMain(object):
def __init__(self):
    self.urls =url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParse()
    self.outputer = html_outputer.HtmlOutputer()

def craw(self, root_url):
    count = 1
    self.urls.add_new_url(root_url)
    while self.urls.has_new_url():
        try:
            new_url = self.urls.get_new_url()
            print ("craw %d : %s" % (count,new_url))
            html_cont = self.downloader.download(new_url)
            new_urls,new_data = self.parser.parse(new_url,html_cont)      
            self.urls.add_new_urls(new_urls)
            self.outputer.collect_data(new_data)
            #這里只是抓取了1000條url數據
            if count == 1000:
                break
            count = count + 1
        except :
            print (“craw failed”)    
    self.outputer.output_html()

if __name__=="__main__":
root_url = "http://baike.baidu.com/item/Python"
obj_spider = SpiderMain()
obj_spider.craw(root_url)

總結

python 語言有很多相關的庫，用起來很方便，功能也很強大，如對于url
下載網頁的方式這里只是最簡單的方法。當然，了解了其中的原理用什么語言都是一樣的。
以上只是一個簡單爬蟲，只是抓取靜態html上的url和目標數據。實際上網頁有很多資源是通過JavaScript 等動態方式顯示出來的，這樣還需要做額外處理；
對于網絡爬蟲還需要有更多學習的地方，如應對反爬取的策略，代理訪問，有的網站還需要使用cookie，分布式爬取等等。弱水三千，道阻且長。

最后編輯于：2017.12.08 14:40:11

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,763評論 6贊 539
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,238評論 3贊 428
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 177,823評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,604評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,339評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,713評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,712評論 3贊 445
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,893評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,448評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,201評論 3贊 357
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,397評論 1贊 372
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,944評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,631評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,033評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,321評論 1贊 293
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,128評論 3贊 398
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,347評論 2贊 377

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一個簡單的網絡爬蟲

一個簡單的網絡爬蟲

什么是網絡爬蟲

簡單的網絡爬蟲

簡單的網絡爬蟲的架構

簡單網絡爬蟲的工作流程

寫一個簡單的網絡爬蟲

url 管理器

網頁下載器

網頁解析器

數據輸出

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

一個簡單的網絡爬蟲

什么是網絡爬蟲

簡單的網絡爬蟲

簡單的網絡爬蟲的架構

簡單網絡爬蟲的工作流程

寫一個簡單的網絡爬蟲

url 管理器

網頁下載器

網頁解析器

數據輸出

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频