2019-07-30

'''
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

獲取文檔對象

fp = open("2017年天津高考成績體育類綜合分分數段情況.pdf","rb")

創建一個與文檔關聯的解釋器

parser = PDFParser(fp)

PDF文檔的對象

doc=PDFDocument()

鏈接解釋器和文檔對象

parser.set_document(doc)
doc.set_parser(parser)

初始化文檔

doc.initialize("")

創建PDF資源管理器

resource =PDFResourceManager()

參數分析器

laparam = LAParams()

創建一個聚合器

device =PDFPageAggregator(resource,laparams=laparam)

創建PDF頁面解釋器

interpreter =PDFPageInterpreter(resource,device)

使用文檔對象得到頁面的集合

for page in doc.get_pages():

#使用頁面解釋器來讀取
interpreter.process_page(page)

#使用聚合器來獲得內容
layout =device.get_result()

for out in layout:
    if hasattr(out,"get_text"):

        print(out.get_text())

'''

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • iframe有那些缺點 缺點: iframe會阻塞主頁面的Onload事件;搜索引擎的檢索程序無法解讀這種頁面,不...
    張機智_0fe3閱讀 232評論 0 0
  • Mybatis進階總結 一·、#{}和${}的區別是什么? 1. #將傳入的數據都當成一個字符串,會對自動傳入的數...
    lipingLi_2019閱讀 210評論 0 0
  • HTML 1、你是如何理解web語義化的? Web語義化是指使用恰當語義的html標簽、class類名等內容,讓頁...
    蘋果詠閱讀 624評論 0 0
  • KINDLE青春版到底值不值得買 目前市場上閱讀器的種類越來越多,KINDLE作為閱讀器的老品牌,一直是銷量王。...
    wendyonly1閱讀 425評論 0 1
  • 天河路四季同達生態園一個久負盛名的園林式酒店。它的輝煌是過去的歲月,如今外形仍龐大,經營怎樣呢? 進去瞧一瞧,風光...
    悅悅_1367閱讀 145評論 0 0