爬蟲數據分析群里上周都聊了些什么?

上周我把簡書上寫Python爬蟲、數據分析的文章的作者聚集在一起,詳見文章《來簡書,看看數據分析多有趣》,看看他們在群里都聊了些啥。


1. 如何防止爬蟲被Ban

@向右奔跑:昨天在lagou爬數據時被Ban,設置了瀏覽器請求頭,有什么好辦法?

@博客蟲大數據:之前爬京東的,沒有頻率限制。

@LEONYao:用scrapy 爬,加個隨機請求頭基本不會被ban

@向右奔跑:我用的scrapy ,偽裝了請求頭

@博客蟲大數據:如果做IP頻率限制 偽裝請求頭 沒什么用

@LEONYao:我這有好多個爬蟲在同時運行,都爬了好多天了,沒事。
只是多個請求頭,我有用過代理ip 池,速度不穩定,就沒再用了

@博客蟲大數據:代理的IP,很多都上了黑名單。
難找到 好的 都是被用爛的了

@LEONYao:買了個scrapy cloud 的代理,很貴,用起來也慢

@向右奔跑:明白,今天準備試代理IP, 后來設了下載延遲設成1秒就好了


2. 大數據交流分享準備

@博客蟲大數據:群里有多少 是搞大數據的 可以深入交流一下 哈哈

@向右奔跑:之前看過一段時間,沒有搞過

@博客蟲大數據:其實我感覺 爬蟲應該也算大數據的一環 哈哈,數據源側重要的一環,處于大數據鏈路的最前端。

@向右奔跑:沒有找到具體應用場景,自己很難搞下去

@博客蟲大數據http://www.mite8.com 這個網站,所有流程,從爬取 到最終的可視化 都是自己折騰出來的。

@向右奔跑:太棒了
能不能搞一個專題分享

@博客蟲大數據:近期 自己業余時間 在爬蟲和數據可視化這塊 搞的比較多。

@博客蟲大數據:怎么搞

@向右奔跑:就從介紹你這個網站開始,你是怎么折騰的

@博客蟲大數據:可以呀 有時間梳理一下

@LEONYao:太吊了這個
大神快分享教程啊

@程鑫垚:看著就很棒 膜拜


3. 用戶畫像和分詞的方法

@龍瀟
問個問題,爬取了大量產品經理的招聘要求,如何進行數據分析呢?
我想到的一個辦法是自己先看十幾條,找出一些關鍵詞來,然后去看這些關鍵詞在這里面出現的頻率是多少

@向右奔跑:先要一定的詞庫,可以是自己熟悉的。也可以直接分詞后統計高頻詞

@龍瀟:分詞你是自己寫代碼分詞還是借助第三方工具?

@向右奔跑:代碼調用分詞工具或API

@強尼:可以這樣,你可以先爬取好詞,如果你有nlp,過一遍NLP,給打標簽,然后聚類分析一下就好了

比如,簡書編輯需要會打籃球的人; 標簽:籃球簡書編輯的人,需要來自于NBA的職業球隊,并且必須是球員; 標簽:籃球

@羅攀:很厲害~@強尼?有python的jieba庫可以么

@向右奔跑:可以,jieba分詞不足的是詞庫不太行,新詞、專業詞上差一點


4. 密文的爬取解析

@LEONYao:幫看看這種數據怎么爬

@向右奔跑:億 字也是顯示出來的嗎
奇怪,沒有遇到過

@LEONYao:我百度了一下,得到了一些思路
https://jizhi.im/blog/post/maoyan-anti-crawler
是密文

@LEONYao
這篇教程里。。寫個爬蟲都用上了機器學習了

@Jaquez
這個網站還挺有意思的

@張宏倫:美團的數字是圖片加偏移……

@志明:對 要熟悉各種反爬蟲


5. Ajax數據構造URL爬取

@翁永鑫:請問有哪位爬過這種網頁嗎?https://www.kuaidi100.com/courier/?searchText=金蝶大廈

@翁永鑫:這個是關鍵的數據編碼

@LEONYao:但碰巧我在源碼里找到了電話號碼

@翁永鑫:有了編碼可以構造這個url,這個是數據所在

@LEONYao:那你構造URL吧

@羅攀:異步加載就是找包

@LEONYao:有手機端的話可以嘗試下
爬手機端比爬pc 容易


本周推薦文章

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容