怎么辦?簡書“下載所有文章”并沒把圖片備份到本地

相信很多人都喜歡在簡書上寫文章,但是諸如很多平臺或者博客平臺一樣,平臺的檢查機制很多時候會誤殺一批人,導致無故賬號被封。雖然事后可以交涉解封,但其中各種滋味唯有經歷過的人才能感受到。于是大家最好養成經常備份的好習慣,還好簡書的后臺有一個下載所有文章的按鈕。雖然可以瀏覽器打開直接查看,可惜的是,文章的圖片還是線上的 ,并沒有備份到本地就仍然會有丟失的可能。 小馬即興搞了一個入門python小爬蟲腳本來爬取文章圖片保存到本地,媽媽再也不用擔心文章丟失了。小馬也是初學者,分享僅供參考,但希望能拋磚引玉,共同進步。

這里可以打包下載備份到本地

思路分析

遇到問題就想辦法解決嘍,我們從簡書后臺下載下來的所有文章是一個rar壓縮包,解壓后是按文集為文件夾的一堆html文件,如果你用的markdown編輯則是一堆md文件。那么問題來了,我們的文章是下載下來了,但是文章中的圖片還是只是個遠程鏈接,圖片沒有保存在本地。于是,小馬打開了一個html文件,發現就是一個靜態html文件,很好,我們可以爬取到文章的每個圖片鏈接,下載到本地。這時候python爬蟲就登場了。

下載下來的HTML文件格式

python爬蟲

python是什么?按照老慣例,我們先來看一下百科怎么說:

Python是一種跨平臺的計算機程序設計語言。 是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。最初被設計用于編寫自動化腳本(shell),隨著版本的不斷更新和語言新功能的添加,越多被用于獨立的、大型項目的開發。

哎呀,又是一頓商業互吹。咋也不管了,Lu起鍵盤就是干。我們首先要寫一個腳本,讓其遍歷本地備份文章的整個目錄文件夾和文件,然后打開文件,讀取每一行文件內容,然后對每一行的文件內容進行正則匹配,匹配到圖片的元素,然后把地址挖出來進行下載。爬蟲爬一遍完文件自然圖片也就下完了,為了后續辨認我們會把圖片放在對應文章名稱的文件夾中,并按備份的時間來創建文件夾保存圖片。

我們要跑起python,就要先安裝,于是安裝就不贅述了,基本就是傻瓜安裝。安裝完注意把路徑注冊到系統變量中,這樣就可以全局運行python命令了。我們來跑一個簡單的實例。

好了,我們的武器已經生產好了,接下來就是戰斗了。我們看到,我們下來的包解壓之后目錄是類似這樣。

好了,我們來遍歷這個文件夾處理。小馬遍歷的時候為了調試直接輸出文章標題,但因為有中文亂碼導致IO錯誤,執行報錯。

解決辦法就是設置窗口字符集,也是醉醉的。如下處理后運行正常。

當然,輸出文件名并不是我們的最終目的,我們要下載所有圖片到本地呢。于是下面的代碼最終出爐,下例中只針對HTML里的圖片正則,md文件的同理更換正則式子即可。后續小馬會托管到git供有些小伙伴入門參考。

好了,我們cmd到腳本的所在目錄執行腳本,直接完成了所有文章圖片的本地備份。

調試的時候小馬用的是test.py

查看圖片下載效果。

查看圖片下載效果

Python腳本怎么用

打完收工。對于大多數人可能不太感興趣它是怎么誕生地,只是需要這么一個工具來爽歪歪。小馬后續打算封裝成小工具供大家下載直接運行使用。但目前還是順手說下拿到這個腳本怎么跑,麻煩是麻煩了點,但很助于理解。以window為例。

1、官網下載對應版本Python并傻瓜式安裝,注冊安裝目錄到系統環境變量。

2、簡書后臺,一鍵下載你的文章壓縮包,解壓,重命名為articlebak。下載上面我們寫的腳本文件imgbakScript.py,放在與你的文章文件夾同目錄下,就像下面這樣。

3、你需要打開cmd,到目錄一下敲命令python imgbakScript.py即可。如下:

好了,你會發現同級目錄下多了個imgbak文件夾,里面就是所有文章的圖片被下到本地了。

就到這吧,需要腳本源碼文件的也可以直接call小馬(點這里下載)。不到之處歡迎指正,拜拜。

相關文獻:

python菜鳥教程

python能干什么及學習大綱

python爬蟲主流框架scrapy

爬蟲原理

分布式爬蟲(URL隊列分配給多個機器去爬取)

python和go的區別(go需要bulid編譯,go比py快;py適合web和科學數據,庫豐富,go更像c的升級版,系統語言;py沒有內置并發機制go有)

原創文章,未經允許請勿轉載。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374