一個爬簡書所有歷史文章的爬蟲

閑來無聊寫的一個爬蟲,因為我看好像沒有人寫類似的,所以就發(fā)上來。
寫出這種并不是特別難。

原因

簡書上的文章看上去還不錯哦
但是每次只能看到最近發(fā)的幾篇
我試過把字典壓在下鍵上面讓他翻頁
結(jié)果一中午過去了還沒翻到底
但是瀏覽器已經(jīng)卡到爆了(╯‵□′)╯︵┻━┻

怎么辦呢
所以我就寫了這個看似非常蠢的腳本,可以直接把簡書誕生到現(xiàn)在的所有發(fā)過的帖子的鏈接
爬下來,要看哪個不看哪個你就自己定奪嘍

當(dāng)然我只喜歡看與程序員相關(guān)的專欄的,其他的我不感興趣
要看其他的自己把相應(yīng)的鏈接改一下唄

收獲

中文編碼

保存為utf-8才是王道,開始保存為gbk解析到一多頁就碰到了不可解析的字符
后來還是encode為utf8,然后前面加上標示就行了

續(xù)傳

要是中間網(wǎng)斷了就直接從那一頁接著寫文件就行了

爬蟲文件

點這里

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,368評論 25 708
  • 1. 前言 這篇文章藏在心中已經(jīng)好一段時日了,遲遲不敢動筆,主要是擔(dān)心不知道該如何去組織這樣一篇技術(shù)文章。 其實個...
    lanzhiheng閱讀 5,500評論 19 48
  • 這兩天在武漢開會居然碰到了當(dāng)年在同濟進修的許多同學(xué),大家相見甚歡!昨晚老同學(xué)饒院長居然請我們一起吃個飯,真的太開心...
    精進的醫(yī)生閱讀 838評論 2 7
  • 原來一直不知道別的朋友們怎么發(fā)原創(chuàng),現(xiàn)在可算是找到了“紅袖添香”的所在。
    張眼看世界閱讀 283評論 0 0
  • 博客如茶 人活著必須吃飯,當(dāng)然,這飯不僅僅指糧食,果蔬肉蛋也算。人活著就不能不喝水,當(dāng)然,這水不僅僅指白水,五花八...
    二班班閱讀 285評論 0 0