Python爬蟲學(xué)習(xí)4-url去重方法

爬取網(wǎng)頁時(shí),url去重是重要一環(huán),這樣可以避免重復(fù)抓取。
1、url保存在數(shù)據(jù)庫中(效率低)
2、將url保存在set中,但對內(nèi)存要求高。若有1億網(wǎng)頁,則占用內(nèi)存為:
100000000*2byte*50個(gè)字符/1024/1024/1024=9G
3、url經(jīng)過md5等方法哈希后保存到set中(對2的改進(jìn),可以成倍降低內(nèi)存占用)。Scrapy使用的這種方法
4、用bitmap方法,將訪問過的url通過hash函數(shù)映射到某一位。
5、bloomfilter方法對bitmap進(jìn)行改進(jìn),多重hash函數(shù)降低沖突

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 教你如何迅速秒殺掉:99%的海量數(shù)據(jù)處理面試題 本文經(jīng)過大量細(xì)致的優(yōu)化后,收錄于我的新書《編程之法》第六章中,新書...
    Helen_Cat閱讀 7,461評(píng)論 1 39
  • 剛到手一副手機(jī)鏡頭,其他的還沒有試,先發(fā)一組微距鏡頭初拍圖。 這個(gè)就是“神器”啦: 大愛
    胖噠的夏天閱讀 907評(píng)論 11 4
  • 前幾天看了《多情素 今安在》,感覺男主角冒菜得扮演者吳迪非常適合小說里寫的這個(gè)角色,最大的原因在于小說里這樣的...
    ROX清風(fēng)閱讀 683評(píng)論 1 2
  • 拿了征收補(bǔ)償款的鄰居們搬走后 芙蓉區(qū)政府組建的拆遷征收指揮部 將曾經(jīng)的鄰居們的門窗拆除 鄰居的家從此門洞大開 四通...
    微風(fēng)LG閱讀 279評(píng)論 0 1