2017-04-22_14-55-04.png

1.基礎知識

爬蟲
爬蟲，是一種自動獲取網頁內容的程序，是搜索引擎的重要組成部分，因此搜索引擎優化很大程度上就是針對爬蟲而做出的優化。

Robots協議
robots.txt是一個文本文件，也是一個協議，不是一個命令。
robots.txt是爬蟲要查看的第一個文件。
robots.txt告訴爬蟲在服務器上什么文件是可以被查看的，搜索機器人就會按照文件中的內容來確定訪問的范圍。

配置環境

Express http://www.expressjs.com.cn/
Request https://github.com/request/request
Cheerio https://github.com/cheeriojs/cheerio

express spider && cd spider && npm install 創建項目spider并安裝依賴
cd bin && node www 啟動服務器
npm install request --save-dev 安裝request模塊并放入項目
npm install cheerio --save-dev 安裝cheerio模塊并放入項目

模塊相關
superagent ：發起http請求
cheerio ：解析http返回的html內容
async ：多線程并發控制

2.原理分析

步驟1：app.js

var express = require('express');
var app = express();

app.get('', function(req,res){
    res.send('hi,world!');
});
app.listen(3000);

測試
supervisor start app.js

3.實戰案例

3.1 爬取圖片并保存到本地

var http = require('http');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');

var url = 'http://tu.duowan.com/tag/5037.html';

function saveImg($){
    var arr = [];
    $('.box').each(function(index,item){
        //獲取圖片的標題
        var obj = {
            'name':$(this).find('em a').text(),
            'img':$(this).find('img').attr('src')
        };
        arr.push(obj);
        //采用request模塊，向服務器發起一次請求，獲取圖片資源
        request.head(obj.img, function(err, res, body){
            if(err){
                console.log(err);
            }
        });
        //通過流的方式，把圖片寫到本地目錄下
        request(obj.img).pipe(
            fs.createWriteStream('./imgs/'+obj.name+'.jpg')
        );

        // 在本地存儲所爬取的內容資源
        var file = './imgs/note.log';
        var content = obj.name+'\n';
        fs.appendFile(file, content, 'utf-8', function(err){
            if(err){
                console.log(err);
            }
        });
    });
    console.log(arr);
}
function startRequest(url){
    //采用http模塊向服務器發起一次get請求
    http.get(url,function(res){
        var html = '';
        //防止中文亂碼
        res.setEncoding('utf-8');
        res.on('data', function(chunk){
            //監聽data事件，每次取一塊數據
            html += chunk;
        }).on('end', function(){
            //監聽end事件，如果整個網頁內容的html都獲取完畢，就執行回調函數
            //采用cheerio模塊解析html
            var $ = cheerio.load(html);
            //在本地存儲所爬取到的圖片資源
            saveImg($);
        }).on('error', function(err){
            console.log(err);
        });
    });
}
function getPage(url){
    startRequest(url);
}
getPage(url);

3.2 爬取博客

環境配置

npm install async -save-dev
npm install url-save-dev
npm install superagent -save-dev
npm install eventproxy -save-dev

代碼解析


var cheerio = require('cheerio');
var async = require('async');
var url = require('url');
var superagent = require('superagent');

var express = require('express');
var app = express();

var eventproxy = require('eventproxy');
var ep = eventproxy();


var pageurl = [];
var pagenum = 3;
for(var i=0; i<pagenum; i++){
    pageurl.push('http://www.ruanwen2008.com/page_'+i+'.html');
}


app.get('/', function(req,res,next){
    var posturl = [];
    //ep重復監聽emit事件
    //eventproxy就是使用事件(并行)方法來解決這個問題。當所有的抓取完成后，eventproxy接收到事件消息自動幫你調用處理函數。
    ep.after('getPost', pageurl.length, function(eps){
        var count = 0;
        //抓取內容
        var fetch = function(url,callback){
            count++;
            superagent.get(url).end(function(error,result){
                count--;

                var $ = cheerio.load(result.text);
                var title = $('title').text();
                var obj = {title:title};
                callback(null,obj);
            });
        };
        //控制最大并發數為5
        async.mapLimit(posturl, 5, function(url,callback){
            fetch(url, callback);
        }, function(error,result){
            res.send(result);
        });
    });
    pageurl.forEach(function(url){
        superagent.get(url).end(function(error,response){
            if(error){
                return next(error);
            }
            //cheerio充當服務器端的jQuery功能
            //先使用它的.load()來載入HTML
            //再通過CSS selector來篩選元素。
            var $ = cheerio.load(response.text);
            //其結果為一個個對象，調用 .each(function(index, element))函數來遍歷每一個對象，返回的是HTML DOM Elements。
            $('.lieb>ul>li>h2>a').each(function(){
                var href = $(this).attr('href');
                posturl.push(href);
            });
            //使用eventproxy來并發抓取
            ep.emit('getPost', 'get article');
        });
    });
});
//監聽服務器端口
app.listen(3001, function(req,res){
    console.log('app is running');
});

4.爬蟲小結

4.1http.get+cheerio+iconv-lite

直接使用http的get方法進行請求url，將得到的內容給cheerio解析，用jquery的方式解析。得到的結果中文亂碼如何解決呢，用iconv-lite模塊將得到的內容進行轉碼即可。

http.get(options,function(result){
  var body = [];
  result.on('data',function(chunk){
     body.push(chunk);
  });
  result.on('end', function () {
     var html = iconv.decode(Buffer.concat(body), 'gb2312');  //注意這里body是數組
     var $ = cheerio.load(html);
     ...
  });
});

4.2request+cheerio+iconv-lite

直接獲取到Buffer類型的數據。然后將得到的內容給cheerio解析，用jquery的方式解析出我們要東西即可。

request(options,function(err,res,body){
  if(err)console.log(err);
  if(!err&&res.statusCode==200){
     var html = iconv.decode(body, 'gb2312');     //這里body是直接拿到的是Buffer類型的數據，可以直接解碼。
     var $ = cheerio.load(html);
     ...
  }
});

4.3 superagent+cheerio+superagent-charset

用了superagent的get方法發起請求，解碼的時候用到了superagent-charse，用法還是很簡單的，之后再將獲取到的內容給cheerio解析，用jquery的方式解析出我們要東西即可。結果中文亂碼解決用superagent-charset模塊進行轉碼。

var charset = require("superagent-charset");
var superagent = charset(require("superagent"));   //將superagent模塊傳遞給superagent-charset
superagent.get(url)
  .charset('gb2312')                                //用charset方法達到解碼效果。
  .end(function(err,result){
     if(err) console.log(err);
     var $ = cheerio.load(result.text);
     ...
  });

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Node.js Spider

Node.js Spider

1.基礎知識

2.原理分析

3.實戰案例

3.1 爬取圖片并保存到本地

3.2 爬取博客

4.爬蟲小結

4.1http.get+cheerio+iconv-lite

4.2request+cheerio+iconv-lite

4.3 superagent+cheerio+superagent-charset

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Node.js Spider

1.基礎知識

2.原理分析

3.實戰案例

3.1 爬取圖片并保存到本地

3.2 爬取博客

4.爬蟲小結

4.1http.get+cheerio+iconv-lite

4.2request+cheerio+iconv-lite

4.3 superagent+cheerio+superagent-charset

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频