上周我把簡書上寫Python爬蟲、數據分析的文章的作者聚集在一起,詳見文章《來簡書,看看數據分析多有趣》,看看他們在群里都聊了些啥。
1. 如何防止爬蟲被Ban
@向右奔跑:昨天在lagou爬數據時被Ban,設置了瀏覽器請求頭,有什么好辦法?
@博客蟲大數據:之前爬京東的,沒有頻率限制。
@LEONYao:用scrapy 爬,加個隨機請求頭基本不會被ban
@向右奔跑:我用的scrapy ,偽裝了請求頭
@博客蟲大數據:如果做IP頻率限制 偽裝請求頭 沒什么用
@LEONYao:我這有好多個爬蟲在同時運行,都爬了好多天了,沒事。
只是多個請求頭,我有用過代理ip 池,速度不穩定,就沒再用了
@博客蟲大數據:代理的IP,很多都上了黑名單。
難找到 好的 都是被用爛的了
@LEONYao:買了個scrapy cloud 的代理,很貴,用起來也慢
@向右奔跑:明白,今天準備試代理IP, 后來設了下載延遲設成1秒就好了
2. 大數據交流分享準備
@博客蟲大數據:群里有多少 是搞大數據的 可以深入交流一下 哈哈
@向右奔跑:之前看過一段時間,沒有搞過
@博客蟲大數據:其實我感覺 爬蟲應該也算大數據的一環 哈哈,數據源側重要的一環,處于大數據鏈路的最前端。
@向右奔跑:沒有找到具體應用場景,自己很難搞下去
@博客蟲大數據:http://www.mite8.com 這個網站,所有流程,從爬取 到最終的可視化 都是自己折騰出來的。
@向右奔跑:太棒了
能不能搞一個專題分享
@博客蟲大數據:近期 自己業余時間 在爬蟲和數據可視化這塊 搞的比較多。
@博客蟲大數據:怎么搞
@向右奔跑:就從介紹你這個網站開始,你是怎么折騰的
@博客蟲大數據:可以呀 有時間梳理一下
@LEONYao:太吊了這個
大神快分享教程啊
@程鑫垚:看著就很棒 膜拜
3. 用戶畫像和分詞的方法
@龍瀟:
問個問題,爬取了大量產品經理的招聘要求,如何進行數據分析呢?
我想到的一個辦法是自己先看十幾條,找出一些關鍵詞來,然后去看這些關鍵詞在這里面出現的頻率是多少
@向右奔跑:先要一定的詞庫,可以是自己熟悉的。也可以直接分詞后統計高頻詞
@龍瀟:分詞你是自己寫代碼分詞還是借助第三方工具?
@向右奔跑:代碼調用分詞工具或API
@強尼:可以這樣,你可以先爬取好詞,如果你有nlp,過一遍NLP,給打標簽,然后聚類分析一下就好了
比如,簡書編輯需要會打籃球的人; 標簽:籃球簡書編輯的人,需要來自于NBA的職業球隊,并且必須是球員; 標簽:籃球
@羅攀:很厲害~@強尼?有python的jieba庫可以么
@向右奔跑:可以,jieba分詞不足的是詞庫不太行,新詞、專業詞上差一點
4. 密文的爬取解析
@LEONYao:幫看看這種數據怎么爬
@向右奔跑:億 字也是顯示出來的嗎
奇怪,沒有遇到過
@LEONYao:我百度了一下,得到了一些思路
https://jizhi.im/blog/post/maoyan-anti-crawler
是密文
@LEONYao:
這篇教程里。。寫個爬蟲都用上了機器學習了
@Jaquez:
這個網站還挺有意思的
@張宏倫:美團的數字是圖片加偏移……
@志明:對 要熟悉各種反爬蟲
5. Ajax數據構造URL爬取
@翁永鑫:請問有哪位爬過這種網頁嗎?https://www.kuaidi100.com/courier/?searchText=金蝶大廈
@翁永鑫:這個是關鍵的數據編碼
@LEONYao:但碰巧我在源碼里找到了電話號碼
@翁永鑫:有了編碼可以構造這個url,這個是數據所在
@LEONYao:那你構造URL吧
@羅攀:異步加載就是找包
@LEONYao:有手機端的話可以嘗試下
爬手機端比爬pc 容易
本周推薦文章
- 數據蟲巢 從0到1構建數據生態系列之六:數據價值挖掘
- 宏倫工作室 全棧 - 6 數據 解讀數據結構和類型
- 龍瀟Shana 數據化看百度產品經理招聘