python使用代理+多線程爬取速賣通評論(二)

廢話少說

在上一篇文章python使用代理+多線程爬取速賣通評論(一)中，我已經成功分析出了速賣通評論請求數據的策略，但是為了防止我們的爬蟲觸發速賣通的反爬策略，我們決定采取使用代理IP的方式來進行偽裝，同時為了提高爬取速度，我決定開多個線程進行數據爬取。
這篇文章，更多的是我在實現多線程爬取過程中的思考過程和收獲，以及代碼大概的說明，完整的代碼我已放到github,大概300行，如有bug或者更好更優雅的實現，我會及時更新。
需要代碼的看這里，代碼是默認保存到數據庫的，你可以本地建一下數據庫和表，也可以使用我提供的save_data_to_csv()方法，直接保存到csv文件中。

使用代理IP發送請求

監控同一IP訪問頻率是非常常見的反爬手段之一，你用同一個IP在短時間內大量訪問目標網站，而且沒有sleep的話，你的ip很容易被服務器禁止訪問。所以為了反反爬，我們要學會如何使用代理IP來發送請求，這也是我第一次學習使用代理IP爬數據，超easy。
對于我們個人來說，如果只是自己爬小量數據用于研究，分析的話，可以直接從代理IP網站爬取免費的代理IP。
比如國內高匿代理IP，如圖

image.png

我們直接把首頁的IP爬取下來就夠用了，當然免費的肯定沒有付費的好用，有些IP不可以用，但是說實話我還沒有碰到幾個不能用的。這個爬取很簡單，直接附代碼了，爬取到本地之后，按行保存到本地一個txt文件中

from bs4 import BeautifulSoup
import queue
url='http://www.xicidaili.com/nn/'
headers={
      'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',        
}
ip_data=requests.get(url,headers=headers)
soup=BeautifulSoup(ip_data.text,'html.parser')
ips=soup.select('tr')
ip_list=[]
for i in range(1,len(ips)):
    ip_info=ips[i]
    tds=ip_info.select('td')
    ip_list.append(tds[1].text+':'+tds[2].text)
with open("iplist.txt","a",encoding='utf-8') as f:
        for ip in ip_list:
            f.write(ip)
            f.write('\n')

image.png

接著你就可以用代理IP來爬數據了，聽起來感覺很復雜，但是對應到代碼上,也就多加一個參數（當然只限定python+requests,其它不了解)

def get_ip_list(self):
    temp_ip_list=[]
    with open('iplist.txt', 'r') as f:
        while True:
            ip=f.readline().replace('\n','')
            # 記得加 'http://'
            temp_ip_list.append('http://'+ip)
            if not ip:
                break
    return temp_ip_list       
def get_random_ip(self):        
    proxy_ip=random.choice(self.ip_list)
    proxies={
        'http':proxy_ip
    }
    return proxies

因為我是從完整代碼里截取的，所以里邊有self,第一個函數用于將每一個ip從iplist.txt這個文件讀取到一個python list中，然后第二個函數用于從該list中隨機獲取一個Ip,而真正使用代理ip發請求是超級簡單,只是在原來的基礎上，多一個proxies參數

proxies=self.get_random_ip()
requests.get(url,headers=headers,proxies=proxies)

多線程爬取

我回家連的就是家里wifi,本來爬的就慢，動不動就超時了，再加上，為了保險，每爬一個頁面，我都sleep1秒鐘，這樣一來，爬取的速度我感覺有點慢，所以就考慮要不要多開幾個線程，但是因為對之前從來沒寫過多線程程序，對多線程的認識就是一些模糊的概念，因此在編程中間還碰到一些問題，但是后來解決問題之后，對并發編程，線程同步，生產者與消費者模型，線程安全等有一個更進一步的認識。
代碼整體結構如圖

image.png

CommentSpyder 是爬蟲類，主要負責爬取數據和解析數據
Saver是存儲類，主要負責儲存數據
get_total_page()函數用于獲取評論總頁數
get_url()函數用于構造token請求地址
update_ip_list()函數用于更新iplist.txt文件中的代理IP，需要手動執行
crawl()為封裝好的爬取函數
main()函數為主函數

image.png

在main函數中，首先發出請求獲取總頁數，然后根據總頁數給每個線程平均分配自己所要爬取的評論頁碼范圍，默認開10個線程，同時在開一個線程，用于往數據庫或者csv文件寫數據，然后這10個線程相當于生產者-消費者模型中的生產者，saver線程相當于是消費者，這11個線程共享一個pyhon提供的線程安全的隊列，生產者爬到數據之后寫入該隊列，然后消費者從該隊列取數據，并一條一條插入數據庫或者保存到csv中。
說一下我踩過的坑
踩坑1：我在爬蟲類初始化的時候首先發一個請求，獲取token,這樣在爬取每一頁的時候就不必每次去取token了，但是我在寫多線程的時候，一開始是這么寫的，只貼相關代碼

spyder=CommentSpyder(url,productid,owner_memberid,companyid,result_queue,start_page,end_page)
crawl_thread = threading.Thread(target = spyder.crawlComments,args=(url,productid,owner_memberid,companyid,result_queue,start_page,end_page))

一開始一直沒覺得有什么問題，但是當我發現多線程跑和單線程跑的時間差不多的時候，我突然想起了，學pyhon基礎的時候有一個GIL(python全局解釋器鎖)，然后又從別人博客中看到所謂的“python多線程是雞肋的言論”，于是我恍然大悟，“怪不得多線程時間和單線程時間差不多嘞，原來python多線程沒什么鳥用”。
但是當我百度輸入python多線程爬蟲，還是有很多人用python的多線程來寫代碼，如果真的沒用，為什么還有這么多人采取多線程，所以我還是多思考了一會，終于想清楚了原因。
因為我為每個線程實例化了一個爬蟲對象，而在爬蟲對象初始化的過程中，會發出網絡請求取得token,而我給thread添加的target中只有python爬取數據的代碼，所以這十個爬蟲對象請求token的過程是線程阻塞的，這也是為什么我總感覺線程是一個個按順序運行的，我一開始還誤以為是全局解釋器鎖的原因，每次只能有一個線程獲得鎖，很顯然是我錯了，python的多線程雞肋只是雞肋在無法利用多核CPU，但是即使單核CPU，在做IO密集型操作時，多線程效率還是遠遠高于單線程。
我也曾一度鉆進牛角尖，我想不通，單核CPU多線程的時間為什么會比單線程短...
因為，學習多線程的時候，經常講到一個時間片的切換，微觀上是一個個操作來的，只是切換足夠快，快到看上去就好像計算機在同時做兩個操作。那么既然實際上是按順序一個個運行的，只是看上去在并行，那么多線程時間怎么會縮短呢？假設有兩個任務A和B
A中包含a1,a2倆個操作，分別耗時1s,2s
B中包含b1,b2,b3三個操作，分別耗時1s，2s，3s
同步運行的話肯定是9s（當然簡化了模型）
就算開了多線程，單核CPU，不管你切換的有多快，但是本質上你一次只做一個操作，你完成了a1，切換到b1,不管怎么切換，最終運行時間也應該等于9秒才對啊。
而通過寫這個多線程爬蟲，也讓我想通了這個問題，我之所以有上述錯誤的想法就是因為我忽略了IO往往存在大量的阻塞時間。
任務AB耗費的總時間等于AB操作+IO阻塞的時間（如網絡IO，磁盤IO），而相比IO阻塞時間，cpu執行操作的時間幾乎可以忽略不計。
那么再以上面那個例子來講一下
同步執行的情況下
a1 1秒,等待IO10秒
a2 2秒,等待IO20秒
b1 1秒，等待IO10秒
b2 2秒，等待IO20秒
b3 3秒，等待IO30秒
總耗時99秒
而使用多線程的話，
a1 1秒，遇到IO阻塞，釋放GIL鎖，而不會傻等在這里，線程B獲得GIL，轉去執行b1，說到這里，后面就不用說了吧，這樣下來總時間肯定少于99秒。所以時間可以縮短全是因為IO阻塞的存在。
踩坑2：一開始我只開了10個線程，在爬到數據并解析后立刻插入數據庫，但是數據庫這邊有時候會報鏈接不可以獲得的錯誤，我猜測肯定是數據庫訪問頻率某個瞬間太高了，后來就想要不用個隊列，爬下來先寫到隊列里，然后再開一個線程，專門用于從隊列中慢慢讀，并保存到數據庫，寫著寫著，哇，這不就是操作系統上講的消費者與生產者模型嘛。
踩坑3：一開始我在保存數據的時候，想要打印一個信息，即這是第幾條數據，但是經常會出現多個線程打印同一個數字，這是因為我沒有進行加鎖，當我加鎖之后，對該變量的讀取和加1操作每一個時刻只有一個線程可以運行，從而打印出了正確的順序，這似乎沒什么，稍微了解一下鎖的概念就可以知道，但是后邊我在用一個共享隊列的時候，我并沒有加鎖，但是我發現從來沒有出現多個線程同時訪問一條數據的情況，我試了很多遍，一次都沒有出現，我突然，（真的是突然），想起了一個詞“線程安全”，前段時間看java,總是說哪些容器是線程安全的，哪些是不安全的，肯定就是這兒的這個意思，我百度一查，果然如此，import queue進來后，我使用的是python自帶的線程安全隊列，該隊列內部實現了鎖原語，所以保證了不會有多個線程對其同時進行讀寫，如果你換成list，肯定就有問題了。

最后

踩坑越多，收獲越大，我知道我的智商只是正常人的智商，無論我怎么思考也解決不了世界難題，但是思考總是可以讓我進步，讓我更優秀，所以希望我永遠熱愛思考，永遠享受想通問題時的暢快！

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,606評論 6贊 533
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,582評論 3贊 418
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,540評論 0贊 376
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,028評論 1贊 314
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,801評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,223評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,294評論 3贊 442
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,442評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,976評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,800評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,996評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,543評論 5贊 360
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,233評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,662評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,926評論 1贊 286
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,702評論 3贊 392
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,991評論 2贊 374

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

python使用代理+多線程爬取速賣通評論(二)

python使用代理+多線程爬取速賣通評論(二)

廢話少說

使用代理IP發送請求

多線程爬取

最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

python使用代理+多線程爬取速賣通評論(二)

廢話少說

使用代理IP發送請求

多線程爬取

最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频