'''
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
獲取文檔對象
fp = open("2017年天津高考成績體育類綜合分分數段情況.pdf","rb")
創建一個與文檔關聯的解釋器
parser = PDFParser(fp)
PDF文檔的對象
doc=PDFDocument()
鏈接解釋器和文檔對象
parser.set_document(doc)
doc.set_parser(parser)
初始化文檔
doc.initialize("")
創建PDF資源管理器
resource =PDFResourceManager()
參數分析器
laparam = LAParams()
創建一個聚合器
device =PDFPageAggregator(resource,laparams=laparam)
創建PDF頁面解釋器
interpreter =PDFPageInterpreter(resource,device)
使用文檔對象得到頁面的集合
for page in doc.get_pages():
#使用頁面解釋器來讀取
interpreter.process_page(page)
#使用聚合器來獲得內容
layout =device.get_result()
for out in layout:
if hasattr(out,"get_text"):
print(out.get_text())
'''