? ? ? ?NodeJS做爬蟲也是很方便的。因為nodejs有HTTP模塊直接可以使用,而且還有很多簡單粗暴的庫可以即拿即用。
? ? ? 首先,需要的庫文件,
? ? ? 1、superagent 是個輕量的的 http 方面的庫,就像jquery的post,和get一樣,很簡單。
? ? ? 2、cheerio是一個服務(wù)端操作DOM的庫,簡直就是服務(wù)端的jquery。
? ? ?好的,我們需要抓取某個網(wǎng)站的題目。如下圖。這個系統(tǒng)下,及時是游客狀態(tài)也是可以查看題目的,只是答案我們看不到。會顯示我沒有登錄。
現(xiàn)在我們有個需求,先抓取15頁,根據(jù)URL的參數(shù)可以頁數(shù)就是地址中 的P。并且要有本地cookie,獲取cookie的方法,最簡單的是,利用瀏覽器登錄網(wǎng)站之后,在控制臺直接打印document.cookie,得到之后,復(fù)制進(jìn)txt文本。用fs模塊讀取并轉(zhuǎn)換成字符串。在superagent請求時,把cookie傳進(jìn)去。
好了,控制臺已經(jīng)不輸出“未登錄”,說明已經(jīng)登錄成功了。