使用webmagic編寫Java爬蟲獲取博客園文章內(nèi)容

無意中發(fā)現(xiàn)了這個(gè)框架,真正的傳說中的傻瓜爬蟲框架,用來寫簡(jiǎn)單爬蟲很方便,也能夠通過多寫一些代碼寫復(fù)雜爬蟲,作者是中國人,看文檔就能學(xué)會(huì)這個(gè)框架的使用,我這里簡(jiǎn)單的用cnblogs舉例介紹一下這個(gè)框架的使用。

1. 先導(dǎo)知識(shí)

  • Java:這個(gè)就不多說了,不會(huì)Java肯定是要用Python寫爬蟲的,資料一找一大堆。
  • Maven:Maven被idea集成,用起來非常傻瓜,教程一搜一大堆。
  • 正則表達(dá)式的基本使用:我是看的這本書《正則表達(dá)式必知必會(huì)》,看完前幾章就夠了,目測(cè)耗時(shí)不超過1小時(shí)。
  • XPath簡(jiǎn)單語法:只談使用的話,用于本爬蟲看了這頁教程就夠了XPath語法

2. 官方教程

官方教程位置在WebMagic in Action,官方教程非常親民易懂,如果有能力建議直接去看github上的倉庫webmagic。

3. 簡(jiǎn)單爬蟲編寫

3.1. Maven配置

首先是添加Maven依賴,其依賴的包會(huì)自動(dòng)加載。

<dependencies>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.6.1</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.6.1</version>
        </dependency>
    </dependencies>

之后,就可以愉快的開始寫爬蟲啦~

3.2. 第一個(gè)爬蟲:博客園

首先一定要閱讀官方文檔,理解其中的普通模式后,再理解注解模式。

由于官方文檔中爬github的爬蟲目前已經(jīng)失效了,所以我這里用爬cnblogs為例,貢獻(xiàn)一下我自己的博客,講一下這個(gè)爬蟲。

直接給代碼:

package com.spider.main;

import org.apache.http.HttpHost;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.model.ConsolePageModelPipeline;
import us.codecraft.webmagic.model.OOSpider;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

/**
 * Created by 63289 on 2017/5/9.
 */
@HelpUrl("http://www.cnblogs.com/cielosun/default.html\\?page=\\d+")
@TargetUrl("http://www.cnblogs.com/cielosun/p/\\d+.html")
public class CnBlogPo {
    @ExtractBy("http://a[@id='cb_post_title_url']/text()")
    private String title;
    @ExtractBy("http://div[@id='cnblogs_post_body']/tidyText()")
    private String post;
    @ExtractBy("http://div[@class='postDesc']//span[@id='post-date']/text()")
    private String date;

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public String getPost() {
        return post;
    }

    public void setPost(String post) {
        this.post = post;
    }

    public String getDate() {
        return date;
    }

    public void setDate(String date) {
        this.date = date;
    }
    public static void main(String[] args){
        OOSpider.create(Site.me().setSleepTime(1000).setHttpProxy(new HttpHost("127.0.0.1",1080)),new ConsolePageModelPipeline(),CnBlogPo.class)
                .addUrl("http://www.cnblogs.com/cielosun").thread(5).run();
    }
}

其中,因?yàn)槲矣昧舜?,所以設(shè)置了setHttpProxy方法,如果沒使用代理不需要這樣。整個(gè)類是一個(gè)添加了注解的POJO,非常適合Java編程。幾個(gè)注解意思如下:

  • TargetUrl 有所有需求數(shù)據(jù)的地址,本例子中,是任意文章的位置。
  • HelpUrl 輔助檢索的目錄,本例子中,是文章列表的位置。
  • ExtractBy 基于XPath的定位方式,注明POJO中各元素的關(guān)聯(lián)定位。

關(guān)于OOSPider,其中參數(shù)分別為,Site對(duì)象(包含對(duì)爬蟲的配置信息),Pipeline對(duì)象(包含輸出位置信息),POJO的類名,根鏈接(從該處開始運(yùn)行爬蟲)。而其thread方法表示開啟的線程數(shù)量,run方法表示前臺(tái)運(yùn)行,如果用start則在后臺(tái)運(yùn)行,不阻塞主線程。

具體的詳細(xì)的內(nèi)容請(qǐng)參考官方中文文檔。

4. 特別注意

  • 在TargetUrl和HelpUrl中使用的是正則表達(dá)式,但.表示\.,*表示.*更適合描述Url。
  • ExtractBy使用的XPath中增加了如下方法:
Exp Description
text(n) 第n個(gè)直接文本子節(jié)點(diǎn),為0表示所有
allText() 所有的直接和間接文本子節(jié)點(diǎn)
tidyText() 所有的直接和間接文本子節(jié)點(diǎn),并將一些標(biāo)簽替換為換行,使純文本顯示更整潔
html() 內(nèi)部html,不包括標(biāo)簽的html本身
outerHtml() 內(nèi)部html,包括標(biāo)簽的html本身
regex(@attr,expr,group) 這里@attr和group均可選,默認(rèn)是group0
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,716評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,746評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,706評(píng)論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,036評(píng)論 1 329
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評(píng)論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 43,203評(píng)論 0 290
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,725評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,451評(píng)論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,677評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評(píng)論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,857評(píng)論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評(píng)論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,407評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,643評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,776評(píng)論 25 708
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,925評(píng)論 6 342
  • 我是日記星球26號(hào)朵女郎星寶寶,正在參加孫老師的第5期21天蛻變之旅,這是我的第254天原創(chuàng)日記,我相信日積月積的...
    晴致生活館閱讀 350評(píng)論 0 0
  • 寧藍(lán)又在背著筐上山去了,今天的收成不太好,筐里只鋪著一層薄薄的車前草,中間散落著幾顆枸杞子。家里的草藥又...
    月明舟閱讀 346評(píng)論 1 3
  • 前段時(shí)間使用了gulp+browser-sync才發(fā)現(xiàn)這個(gè)東西真的很好用。準(zhǔn)備工作:(1)、安裝nodejs。gu...
    Picidae閱讀 310評(píng)論 0 0