閑來無聊寫的一個爬蟲,因為我看好像沒有人寫類似的,所以就發(fā)上來。
寫出這種并不是特別難。
原因
簡書上的文章看上去還不錯哦
但是每次只能看到最近發(fā)的幾篇
我試過把字典壓在下鍵上面讓他翻頁
結(jié)果一中午過去了還沒翻到底
但是瀏覽器已經(jīng)卡到爆了(╯‵□′)╯︵┻━┻
怎么辦呢
所以我就寫了這個看似非常蠢的腳本,可以直接把簡書誕生到現(xiàn)在的所有發(fā)過的帖子的鏈接
爬下來,要看哪個不看哪個你就自己定奪嘍
當(dāng)然我只喜歡看與程序員相關(guān)的專欄的,其他的我不感興趣
要看其他的自己把相應(yīng)的鏈接改一下唄
收獲
中文編碼
保存為utf-8才是王道,開始保存為gbk解析到一多頁就碰到了不可解析的字符
后來還是encode為utf8,然后前面加上標示就行了
續(xù)傳
要是中間網(wǎng)斷了就直接從那一頁接著寫文件就行了