Python 爬取微博短視頻

最近因為比較忙,但是我覺得再忙也需要給自己安排一點娛樂時間,對自己好點,自己對自己不好,誰會?

自己娛樂一般會有:跑步、看電影、短視頻,而短視頻是最家常的娛樂方式,看得最多的小視頻是「 陳翔六點半 」,咦!拍得搞笑,演技也一流,也不乏有內涵!非常推薦大家看看。

但我不推薦大家用「抖音」看短視頻,因為它的算法實在太強大了、內容也非常抓人性!一入抖音深似海,從此時間是狗屎!

因此我推薦大家到「微信看一看」、「QQ空間、「微博」里去瞧一瞧,最推薦是「微博」,但千萬別花太多時間,也出于不要浪費太多時間去翻各種頁,看一些原本自己沒有打算看的信息,因為這些平臺的算法真的是太了解我們自己,99% 的人都比不過它了解我們自己,數據的價值被這些平臺利用得淋漓盡致,因此我這次去爬視頻,數據是微博的,讓我自己不要花太多時間在搜索,瀏覽或者觀看一些對自己沒多大意義的信息數據,讓自己想看哪些小視頻就只看哪些小視頻,僅此而已。

時間太貴,我耗不起


正題

先上爬取短視頻的效果圖,duang、duang、duang、想下載什么就是什么,哈哈。

打開瀏覽器(電腦版,方便調試)輸入微博 url :https://m.weibo.cn,點擊輸入框,輸入「陳翔六點半」,回車搜索

但是發現在這個頁面就只用幾個視頻。滑下一點,一看,有個「更多熱門微博」,點擊!

跳轉到新頁面,一看,一滑,就像一個無底洞!一直滑都會有視頻!

咦,這不就是我要的視頻數據嘛

仔細看地址,不知大家有沒仔細看地址欄,我滑動時,地址是一直不變的,也就證明這網頁是用 Ajax 來異步請求加載數據的!

我就馬上按 F12 調出調試工具,點擊 Network 選項卡,選中 XHR ,一邊滑動網頁,一邊查看 Ajax 網絡請求,選中一條查看

展開 Json 數據查看,可以看到每條視頻微博數據,總供有十條

我想下載視頻,如何快速找到視頻的下載地址而不是每一個數據點開來看呢?我想想能不能借助了谷歌瀏覽器的忙。

隨便點開其中一個視頻,右鍵,竟然可以查看并復制視頻鏈接

復制到視頻鏈接后,貼到地址欄,回車訪問,也能播放,大喜呀!

馬上回到調試工具,點擊 preview 預覽數據,按 Ctrl + F 進行搜索,把剛剛復制的地址貼到搜索框

咦,竟然匹配到了!

發現 media_info 中的 stream_url 就是該視頻的播放地址,也就是下載地址。再往前看,media_info 前面的 content2 是視頻的在微博中的標題。

查看其他的 Json 數據也同樣有視頻地址和標題,復制里面的 視頻地址 url 貼到瀏覽器地址欄也能直接播放視頻!八九不離十,這個 stream_url 就是視頻下載地址了。

馬上構造請求,根據剛剛復制的視頻地址獲取資源,并下載視頻,看看有沒有什么端倪,此時心中忐忑不安

很快就下載好了


點擊播放視頻,竟然毫無毛病,流暢播放!這下好了!就 kuang、kuang、kuang 準備開始擼代碼了,不要慫,就是干!

認真查看請求地址、請求頭中的請求地址,請求方法和 User—Agent 等,開始構建請求方法模擬 Ajax 請求,獲取 Json 數據。


查看多幾次異步請求,就會發現,變化的參數只有 page,可以一步步把一個參數刪掉后測試一下能不能正常獲取數據,這樣把一些非不要的參數剔除。里面有一些注釋,是我踩過的坑,有興趣就多看幾眼,希望各位看客能分享一下(在下方留言)在 python 爬蟲上入過的一些坑,讓彼此少躺槍!獲取到了頁面后,構建方法解析 Json 數據,分析 Json 數據中的層級結構,把里面的視頻名和視頻下載地址提取出來。

這里有個快捷查出 stream_url 層級結構路徑,選中該屬性或者說節點,右鍵,copy property path

再粘貼到瀏覽器地址欄查看即可清晰知道它們之間的層級結構

面對這種多層 json 格式數據,我知道有上面兩種取值方式,代碼中也說明了各的優勢和缺點,按需選取。如果你還有更優雅的方式,希望你能在下方留言。

之后在,主函數中循環、遍歷調用前面的方法,就下載指定到多少頁的視頻了

嗨皮時刻,效果如下

上面的代碼中還有許多需要優化之處,比如下載時重名怎么辦、各種參數的有效性判斷等等,后面我也會優化一下,把它優化成:只用要用戶輸入自己喜歡的小視頻制作方,如「?陳翔六點半」,再指定想看多少個視頻或者多少頁,后就自動下載視頻,下載好了,就可以嗨皮娛樂一波了。關鍵是自己省很多時間,不得不像那些優秀的算法和大數據屈服

關注微信公眾號:MoTec,查看更多爬蟲的技術文章及電子書和視頻。

如果你想瞧瞧這個小 demo,歡迎在公眾號后臺回復?「爬取微博小視頻」獲取。


推薦閱讀

????代碼樹,你知道嗎?

????Python 帶你學潮汕話

????知道如何學習,學會學習 !

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容

  • Swift1> Swift和OC的區別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴謹 對...
    cosWriter閱讀 11,131評論 1 32
  • 今天是年后第一天上班,早上從一個莫名其妙的噩夢中醒來,心里就這么默默的低落了一個早晨,老公的陪伴讓我心里踏實...
    向往的四月天閱讀 158評論 0 0
  • 在《讀書與美麗》中,嚴歌苓寫道:“讀書這項精神功課,對人潛移默化的感染,使人從世俗的渴望(金錢、物質、外在的美麗等...
    靈魂的天空閱讀 1,396評論 13 12
  • 安裝NVIDIA顯卡驅動 由于Ubuntu系統自帶的驅動更新是無法更新的顯卡的最新驅動的,而且在更新過程中容易出現...
    Luffymaika閱讀 2,499評論 1 3
  • 事物的基本結構往往決定了其外在的物理特性。就如絕緣體和導體,一個是至剛,不能導電;而另一個是至柔,一點就通。這兩種...
    鄭金閱讀 177評論 0 2