巧用抓包 ― 爬遍SCU玻璃杯事件所有神回復

最近我川又搞事情了

然后info又炸了，，，

據說最開始是這樣的：

玻璃杯1.png

然后是這樣的：

玻璃杯2.png

然后一發不可收拾了，校園各處不約而同響起了摔杯的聲音，微信微博朋友圈qq空間，特么也全是玻璃碎片?。。?！

玻璃杯3.png

玻璃杯4.png

玻璃杯5.png

摔碎一個玻璃杯炸出我川多少優秀段子手！
據說后面還引來了武大、浙大等校觀光團。

如此空前盛況怎能錯過,寶寶決定搞點事情。

怎么可能又摔杯！！

（話說我的杯子是塑料的好吧，還PET呢）

4390568406.png

不胡扯了，上Info爬取玻璃杯事件100條熱門神評論，嗯先立個flag。

一、過程

搜了一下網頁版的scuinfo

scuinfo.jpg

首先初步觀察分析

點擊一看也是瀑布流，需要下拉刷新。
再看一下源碼，一下就懵了，什么關鍵數據也沒有呀，用pycharm獲取一樣?？梢钥闯霾捎玫膉avascript和jquery，有點難辦了。

pageSource1.jpg

pageSource2 .png

最先想到是用selenium定位然后截屏什么的，結果連續報錯：無法定位到元素。
都快洗洗睡了，最后想到之前在知乎上有人用的抓包，回去翻了相關帖子，峰回路轉。
這里感謝這個教程。

爬蟲由入門到放棄.jpg

打開開發者工具，切換至network抓包。

這里是我們要到包

點開看到每個評論真實URL地址，估計每一個評論皆有個特殊的id

將URL粘貼至瀏覽器

原來所有信息都在這個包里面了！??！
找到所有id構造URL，requests獲取即可。
下拉找到原帖id=131599

玻璃杯原帖.jpg

接著就是獲取最新帖子id。

特么我在這又兜圈了！因為帖子是隨時更新的，想著可以一試selenium模擬瀏覽器。結果又定位失敗，搞了好久決定先擱置。

先去獲取和處理數據

仔細觀察數據，發現string格式的，里面是一個dict，dict里面data又是一個dict。
“如何將string格式轉變為dict”
百度搜到一靠譜答案。測試可用。

將string格式轉為dict

后面才發現這一堆原來是json格式的（回去翻基礎，難怪如此熟悉），又將eval()換成json.loads()?；A不牢地動山搖啊。。。

提取重要信息，再從comment中提取“玻璃杯事件”評論，決定匹配正則最快。
可“如何在中文中匹配中文關鍵詞”？

之前都是在標簽中提取數據，情況少見真的把我難住了，編碼問題讓人頭痛。
滾去睡覺，第二天查資料，統統的不行啊。

靜下心想了想，pycharm獲取的數據本來就是Unicode格式的，只要源碼先不encode為utf-8，將中文關鍵詞在IDE中轉為Unicode格式，不就可以匹配的上了么？
事實如此！
正則的四個關鍵詞：
“玻璃”、“杯”、“摔”、“觀光”

    pattern=re.compile(u'\u73bb\u7483|\u676f|\u6454|\u89c2\u5149',re.S)
    items=re.search(pattern,body)

我以為接下來就是美滋滋地等待一堆數據，結果又報錯：

Error1.jpg

這個list什么鬼?于是回去查看。原來data是空的list，估計是已經刪除的評論，所以為None。再試了下不存在的id,比如id=137945，同樣如此。

listError.png

改了下代碼，可以運行。

 if not isinstance(data, list):
         xxx(內容）
 else:
    print 'None'

返回獲取最新帖子id

曾經想過最后打出10個或以上的None然后break結束，但發現代碼無法實現，只能手動結束，心想這算什么程序，不行。

很無聊又到info上看帖去了（MDZZ。。。）
后來再打開network發呆了下，想到了。
既然打開一頁可以抓包，那么刷新看新評論肯定也可以呀。

每次刷新頁面便會請求
URL=“http://www.scuinfo.com/api/posts?pageSize=15”，驗證了下15就是一頁總評論數，這么簡單，為什么之前沒想到啊??！
（簡直想表演胸口碎大石）

篩選熱門100條神回復

先把每一項的發言、點贊、評論保存入一個list中，然后多個list放到一個大的list中（暫且叫container）。

可提取的時候麻煩了，我想按照點贊數排列container中所有的list，怎么辦呀。

試了許久，百度搜索“list集合中如何按照某一個屬性排序”，無果。
心想這是給自己挖了個坑呀，便改用dict。
繞了好久最后終于解決了。
先按照點贊數大小，點贊相同時按照評論數大小。

 def getSort(self):
    container=self.getDetail()
    print u'\n',u'將所有評論按照點贊數大小排序：'
    container.sort(key=lambda k:k.get('comment',0))
    container.sort(key=lambda k:k.get('like',0),reverse=True)
    for index,r in enumerate(container):
        print u'\n\n序號：',index+1, u'\n發言：',r['body'],u'\n點贊：' ,r['like'],u'評論',r['comment']

原本以為到這里就結束了，結果運行過程中又出新bug了
(真懷疑自己是否是招bug體質哎。。。）：

Error2.jpg

沒見過于是查資料，原來如此，get !

httpError.png

二、結果和代碼

comment-Number.png

數據是昨天的。
今天又運行了程序，發現已不止1200
下面就是熱門評論了

page1.png

page2.png

爬取的數據實在是多，象征性放前20條

想看完整版100條的可以去我微博：

http://weibo.com/u/5690935322?refer_flag=1005055010_&is_all=1

源碼在Github上：

https://github.com/LUCY78765580/Python-web-scraping/blob/master/BoLiBei.py

終于搞定一切，接下來干點什么好？

04009040.jpg

這一次寫爬蟲，遇到不少問題，總結如下：
1、破解javascript動態網頁（抓包）
2、json格式數據解析（json.loads())
3、在中文中匹配特定中文的正則表達式（先將關鍵詞轉換）
4、多個dict按照某一屬性排序問題
(lambda函數和enumerate迭代器）
5、http連接太多沒有關閉報錯的問題

回去補補基礎。
不過算是學會了抓包，這種東西簡直有如神器。嘿嘿，本篇就是這樣啦~

最后編輯于：2017.12.06 05:35:08

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,501評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,673評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,610評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,939評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,668評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,004評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,001評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,173評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,705評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,426評論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,656評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,139評論 5贊 364
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,833評論 3贊 350
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,247評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,580評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,371評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,621評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

巧用抓包 ― 爬遍SCU玻璃杯事件所有神回復

巧用抓包 ― 爬遍SCU玻璃杯事件所有神回復

最近我川又搞事情了

據說最開始是這樣的：

然后是這樣的：

怎么可能又摔杯！！

不胡扯了，上Info爬取玻璃杯事件100條熱門神評論，嗯先立個flag。

一、過程

首先初步觀察分析

接著就是獲取最新帖子id。

先去獲取和處理數據

返回獲取最新帖子id

篩選熱門100條神回復

二、結果和代碼

想看完整版100條的可以去我微博：

源碼在Github上：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

巧用抓包 ― 爬遍SCU玻璃杯事件所有神回復

最近我川又搞事情了

據說最開始是這樣的：

然后是這樣的：

怎么可能又摔杯！！

不胡扯了，上Info爬取玻璃杯事件100條熱門神評論，嗯先立個flag。

一、過程

首先初步觀察分析

接著就是獲取最新帖子id。

先去獲取和處理數據

返回獲取最新帖子id

篩選熱門100條神回復

二、結果和代碼

想看完整版100條的可以去我微博：

源碼在Github上：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

不胡扯了，上Info爬取玻璃杯事件100條熱門神評論，嗯先立個flag。

一、過程

接著就是獲取最新帖子id。