中央13台在线直播观看,11影院,凹凸国产av熟女白浆精品视频

采用scrapy框架來實現，主要有兩塊，一是實現用戶的登錄，二是實現對用戶的爬取。

? ? ? ?首先，用戶的登錄，采用chrome的開發者工具network觀察，得到用戶登錄的網址和post的數據，分別是https://github.com/session，post的數據是{commit:Sign in，utf8:?，authenticity_token:tokens，login:用戶名，password:用戶密碼}，也就是共有五個字段需要post，唯一需要我們找到的就是anthenticity_token字段，這個也可以通過開發者工具，然后再xpath找到。

? ? ? 登錄以后第二步就是實現對用戶的爬取，這個我是走了一些彎路的，剛開始的設想，也是同時參考了網上其他人的思路，就是首先從一個用戶的follower開始，挨個爬取，同時將這些follower加入一個隊列，如果該用戶的follower爬取完畢，那么就從隊列里取出一個follower A，其實也就是一個用戶，再遞歸爬取該follower A的follower，有些類似于先廣搜索，大概實現的偽代碼如下所示? ? ? ? ? ? ? ? ? def parse_follower(self,response):? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 找出該頁面的用戶的所有follower，提取用戶數據，yield item? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?將提取到的用戶的follower頁面加入隊列Queue? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 如果follower不止一頁，有下一頁next_url:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?那么yield parse_follower(url = next_url，callback=parse_follower)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 當Queue不為空:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 取出第一個進隊列的用戶的user_follower頁面，然后yield? ? ? ? ? ? ? ? ? ?parse_follower(url=user_follower, callback=parse_follower)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? 本來以為程序的運行是沒有問題的，當時設定提取200個用戶然后return，但是程序啟動之后卻永遠停不下來，開始度娘，最后終于找到原因，因為scrapy這個框架是并發的，并不是順序執行的，也就是說并不是先把一個用戶的所有follower都爬取完畢再去隊列里取值，而是并發的，異步亂序的，這就導致了一方面還在取用戶的follower，沒有爬取完所有的follower，就開始爬取follower的follower，然后永遠的遞歸下去，導致了既不是先廣爬取也不是先深爬取，成了四不像，也就是說scrapy會異步的并發的亂序地爬取用戶的follower，follower的follower，follower的follower的follower無窮無盡。由此得到一個知識點，scrapy是異步并發的！異步并發的！異步并發的！? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?解決方法：設置一個bool值done，只有在一個用戶的follower取完之后，done為真，那么才從隊列的user follower url中繼續爬取。

? ? ? ? ?TALK IS CHEAP,SHOW YOU THE CODE!? ? ? ? ?GITHUB地址 ? ? ? ? ? ??

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

scrapy實現對github用戶的爬取

scrapy實現對github用戶的爬取

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

scrapy實現對github用戶的爬取

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频