[Python] 自動化辦公 批量PDF處理(合并 拆分 水印 加密)

轉載請注明:陳熹 chenx6542@foxmail.com (簡書號:半為花間酒)
若公眾號內轉載請聯系公眾號:早起Python

本例可以學到的知識點:

  1. os 模塊綜合應用
  2. glob 模塊綜合應用
  3. PyPDF2 模塊操作

之前已經寫過一個PDF合并的案例:多個PDF合并成單個PDF
這個案例初衷只是給大家提供一個便利的腳本,并沒有太多講解原理
其中涉及的就是PDF處理很實用的模塊: PyPDF2
今天好好剖析一下這個模塊

PyPDF2 導入模塊的代碼常常是:

from PyPDF2 import PdfFileReader, PdfFileWriter

這里導入了兩個方法:

  1. PdfFileReader 可以理解為讀取器
  2. PdfFileWriter 可以理解為寫入器

接下來通過幾個案例進一步認識這兩個工具的奇妙之處
用到的示例文件是5個發票的pdf

每個發票的PDF都由兩頁組成:

一、合并

第一個工作是將5個發票pdf合并成10頁。這里讀取器和寫入器應該怎么配合呢?

邏輯

  1. 讀取器將所有pdf讀取一遍
  2. 讀取器將讀取的內容交給寫入器
  3. 寫入器統一輸出到一個新pdf

這里還有一個重要的知識點:讀取器只能將讀取的內容一頁一頁交給寫入器
因此,邏輯中第1步和第2步實際上不是彼此獨立的步驟,而是讀取器讀取完一個pdf后,就將這個pdf全部頁循環一遍,挨頁交給寫入器。最后等讀取工作全部結束后再輸出

看一下代碼可以讓思路更清楚:

from PyPDF2 import PdfFileReader, PdfFileWriter

path = r'C:\Users\xxxxxx'
pdf_writer = PdfFileWriter()

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))
    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))

with open(path + r'\合并PDF\merge.pdf', 'wb') as out:
    pdf_writer.write(out)

由于全部內容都需要交給同一個寫入器最后一起輸出,所以寫入器的初始化一定是在循環體之外的,如果在循環體內則會變成每次訪問讀取一個pdf就生成一個新的寫入器,這樣每一個讀取器交給寫入器的內容就會被反復覆蓋,無法實現我們的合并需求

循環體開頭的代碼:

for i in range(1, 6):
    pdf_reader = PdfFileReader(path + '/INV{}.pdf'.format(i))

目的就是每次循環讀取一個新的pdf文件交給讀取器進行后續操作。實際上這種寫法不是很提倡,由于各pdf命名恰好很規則,所以可以直接人為指定數字進行循環。更好的方法是用 glob 模塊:

import glob
for file in glob.glob(path + '/*.pdf'):
    pdf_reader = PdfFileReader(path)

代碼中 pdf_reader.getNumPages(): 能夠獲取讀取器的頁數,配合 range 就能遍歷讀取器的所有頁
pdf_writer.addPage(pdf_reader.getPage(page)) 能夠將當前頁交給寫入器
最后,用 with 新建一個pdf并由寫入器的 pdf_writer.write(out) 方法輸出即可

二、拆分

如果明白了合并操作中讀取器和寫入器的配合,那么拆分就很好理解了,這里我們以拆分 INV1.pdf 為2個單獨的pdf文檔為例,同樣也先來捋一捋邏輯

邏輯

  1. 讀取器讀取PDF文檔
  2. 讀取器一頁一頁交給寫入器
  3. 寫入器每獲取一頁就立即輸出

通過這個代碼邏輯我們也可以明白,寫入器初始化和輸出的位置一定都在讀取PDF循環每一頁的循環體內,而不是在循環體外

代碼很簡單:

from PyPDF2 import PdfFileReader, PdfFileWriter
path = r'C:\Users\xxx'
pdf_reader = PdfFileReader(path + '\INV1.pdf')

for page in range(pdf_reader.getNumPages()):
    # 遍歷到每一頁挨個生成寫入器
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    # 寫入器被添加一頁后立即輸出產生pdf
    with open(path + '\INV1-{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

三、水印

本次的工作是將下圖:

作為水印添加到 INV1.pdf

首先是準備工作,將需要作為水印的圖片插入word中調整合適位置后保存為PDF文件

然后就可以碼代碼了,需要額外用到 copy 模塊,具體解釋見下圖:

就是把讀取器和寫入器初始化,并且把水印PDF頁先讀取好備用

核心代碼稍微比較難理解:

加水印本質上就是把水印PDF頁和需要加水印的每一頁都合并一遍
由于需要加水印的PDF可能有很多頁,而水印PDF只有一頁,因此如果直接把水印PDF拿來合并,可以抽象理解成加完第一頁,水印PDF頁就沒有了
因此不能直接拿來合并,而要把水印PDF頁不斷copy出來成新的一頁備用new_page,再運用.mergePage 方法完成跟每一頁合并,把合并后的頁交給寫入器待最后統一輸出

關于 .mergePage 的使用:出現在下面的頁.mergePage(出現在上面的頁)

最后效果如圖:

四、加密

加密很簡單,只需要記住:加密是針對寫入器加密,因此只需要在相關操作完成后調用 pdf_writer.encrypt(密碼)

以單個PDF的加密為例:

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,197評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,415評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,104評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,884評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,647評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,130評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,208評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,366評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,887評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,737評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,939評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,478評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,174評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,586評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,827評論 1 283
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,608評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,914評論 2 372