前兩天晚上對(duì)新浪微博的賬號(hào)信息進(jìn)行了爬去,10幾個(gè)小時(shí)爬了30幾萬(wàn)的數(shù)據(jù),然后我的微博就被封號(hào)了,微博一個(gè)小時(shí)大概就2萬(wàn)條數(shù)據(jù),應(yīng)該已經(jīng)很慢了,但是還是被封號(hào)了,后續(xù)增加多賬號(hào)和多user——agent爬去。
爬去結(jié)果如下:(爬的時(shí)候是csv文件,昨天晚上才學(xué)的mongoDB,因?yàn)閏sv文件30萬(wàn)條數(shù)據(jù)用excel處理太卡了)
![YG]OH063O3X]%CGYY`)A(WL.png](http://upload-images.jianshu.io/upload_images/4568344-610fe5129c8fe3fa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
存在的問題:
1.爬蟲爬取的效率太低,沒有做任何限制,一個(gè)小時(shí)大概只能爬2萬(wàn)條數(shù)據(jù),一天也就50萬(wàn)條數(shù)據(jù)。
2.爬的時(shí)候發(fā)現(xiàn),爬了一段時(shí)間后很多訪問都出現(xiàn)501錯(cuò)誤,用瀏覽器都能打開。
3.爬到30多萬(wàn)條的時(shí)候就被封號(hào)了,后續(xù)要改進(jìn)防ban策略。
4.輸出到csv文件中,對(duì)大數(shù)據(jù)量的限制太多,準(zhǔn)備改用mongoDB。
5.微博封號(hào)可能與太多501錯(cuò)誤有關(guān),實(shí)際對(duì)新浪服務(wù)器的訪問次數(shù)可能遠(yuǎn)遠(yuǎn)大于30萬(wàn)。
6.一個(gè)小時(shí)2萬(wàn)條數(shù)據(jù)的爬去效率太低,目前不清楚瓶頸在什么地方,后續(xù)學(xué)習(xí)的方向。