PDF文檔解析
Quartz提供了讓你檢查PDF文檔結構和內容流(contentstream)的函數.檢查文檔結構可以讓你讀取文檔目錄的條目和與每個條目相關的內容。通過遞歸地遍歷目錄,您可以檢查整個文檔。
一個PDF的內容流(contentstream)正如其名字所暗示的—一個連續(xù)的數據流 例如'BT 12 /F71 Tf (draw thistext) Tj . . . '此處PDF操作符以及他們的描述符都混有實際的PDF內容。檢查內容流,你需要按順序訪問它。
本章揭示了如何查看PDF文檔的結構和解析一個PDF文件的內容。
檢查PDF文檔結構
PDF文件可能包含多個頁面的圖像和文本。您可以使用Quartz訪問文檔和頁面級別的元數據以及PDF頁上的對象。本節(jié)提供了一個非常簡短的介紹,關于您可以訪問的元數據。
一個PDF文檔對象 (CGPDFDocument)包含了所有的信息,涉及到一個PDF文檔,包括它的目錄和內容。目錄中的條目的遞歸地描述了PDF文檔的內容。你可以訪問一個PDF文檔的內容通過調用函數CGPDFDocumentGetCatalog。
一個PDF頁面對象(CGPDFPage)代表PDF文檔中的一頁且包含此特定的頁面所有信息,包括頁面字典和頁面內容。您可以獲得一個頁面字典通過調用該函數CGPDFPageGetDictionary。
圖 14-1 展示了描述了兩張圖片的元數據—組成了圖13-2的PDF文件。
Quartz 2D編程指南(14)--PDF文檔的解析" style="border: 0px; max-width: 100%; margin: 0px; padding: 0px; list-style: none;">
你可以通過訪問PDF的元數據獲得更多有用的信息。圖14-1只是一個示例。例如,您可以通過使用圖14-1中的代碼檢查一個PDF是否有縮略圖(見圖14-2)。
清單 14-1 得到PDF的縮略視圖
CGPDFDictionaryRef d;
CGPDFStreamRef stream; // represents a sequence of bytes
d = CGPDFPageGetDictionary(page);
// check for thumbnail data
if (CGPDFDictionaryGetStream(d, “Thumb”, &stream)){
// get the data if it exists
data = CGPDFStreamCopyData (stream, &format);
Quartz為你執(zhí)行了所有數據流的解密和解密工作。
圖 14-2 縮略圖片
Quartz 2D編程指南(14)--PDF文檔的解析" style="border: 0px; max-width: 100%; margin: 0px; padding: 0px; list-style: none;">
Quartz提供了很多的功能,您可以使用它來獲得PDF的元數據中對應項的指定值。例如,您使用函數CGPDFObjectGetValue,傳入一個CGPDFObjectRef,和一個PDF對象類型(kCGPDFObjectTypeBoolean,kCGPDFObjectTypeInteger, 等等),以及一個存儲值的存儲空間。返回時,此存儲空間就被得到的值填充了。
還有很多其他的函數可以用來遍歷PDF文件的層次結構來訪問各個節(jié)點和他們的子節(jié)點。例如,CGPDFArray函數(CGPDFArrayGetBoolean, CGPDFArrayGet Dictionary, CGPDFArrayGetInteger,等等) 允許您訪問數組的值,以檢索特定類型的值。你可以通過閱讀閱讀PDF規(guī)范來找到更多關于如何使用這些函數。
解析PDF內容
PDF內容流包含操作符,表明一個PDF內容流的一部分對你的應用程序來說是感興趣的(解析時必須用到的???好搓)。一個操作符也標記一個單獨的點或一個序列。一個操作符被指定為一個標簽,此標簽擁有一個屬性列表或與它相關聯的對象。一個標簽指定了點或內容序列代表了什么。一個屬性列表是一本字典,其中包含PDF內容創(chuàng)造者指定的鍵-值對。當您解析一個PDF內容流時,您的應用程序查找感興趣的任何標記,檢查例如 標簽、屬性列表,或對象相關聯的標記,然后執(zhí)行任何進一步的處理,是合適的。參考PDF引用來查看PDF操作符的完整列表。
你使用CGPDFScanner對象(CGPDFScannerRef數據類型)來解析一個PDF內容流。CGPDFScanner對象調用在流中注冊了回調方法的任何操作符的回調方法。
你可以執(zhí)行以下部分所描述的任務來解析內容流:
1.“為操作符寫回調方法”你需要為你要操作的操作符編寫回調方法。
2.“創(chuàng)建和設置操作表”。
3.“打開PDF文檔”。
4.“掃描每頁的內容流”。
當這么做的時候,你應該確保釋放了 the scanner, content stream,and operator table。
下面的部分展示如何解析內容流找到標記-內容操作符(marked-content operators)(見表14-1)。標記的內容操作符只代表部分用于PDF內容的PDF操作符。當您編寫自己的代碼時,你最好尋找適合您的應用程序的PDF操作符。
表 14-1 標注的內容操作符代表一些你可以解析的PDF操作符
**Operator**
**Description**
MP
有一個關聯標簽的標記點。
DP
有一個標簽和一個屬性列表或對象與它相關聯的標記點。
BMC
標志著一個標記內容序列的開始(開始標記內容)和標志一個內容序列結尾的EMC 標記是配對的。有一個相關聯的標簽。
BDC
標志著一個標記內容序列的開始和標志一個內容序列結尾的EMC 標記是配對的。有一個標簽和一個屬性列表或對象與之相關聯。
EMC
標志著一個以BMC或BDC標記開始的標記內容序列的結束(結束標記內容)。這個操作符沒有任何與之關聯的標簽。
為操作符編寫回調方法
當Quartz調用你的PDF操作符的回調方法時,它通過你的回調方法傳遞了一個CGPDFScanner對象和一個指向任何必要信息的指針。通常,你的回調方法檢索任何與操作符相關聯的項。例如,在14-2所展示的清單中對應于MP操作符的回調方法調用了CGPDFScannerPopName函數從堆棧中檢索與操作符相關聯的字符串。如果清單中的代碼成功的從scanner棧中檢索出name,就打印出來。
Quartz有各式各樣的CGPDFScannerPop函數用于檢索objects,Boolean values, names, numbers, strings, arrays, dictionaries, and streams.每個函數都返回一個布爾值表明是否成功檢索了該項。
清單14-2 MP操作符的回調方法
static void
op_MP (CGPDFScannerRef s, void *info)
{
const char *name;
if (!CGPDFScannerPopName(s, &name))
return;
printf("MP /%s\n", name);
}
創(chuàng)建并設置操作表
一個CGPDFOperatorTable對象存儲了你編寫的PDF操作符回調函數。函數CGPDFOperatorTableCreate創(chuàng)建了一個操作符表,如清單14-3所示。當你創(chuàng)建了一個操作符表之后,你要為每個你要加入到表中的回調方法調用函數CGPDFOperatorTableSetCallback。你傳入了操作表,指定PDF操作符的字符串,以及一個你編寫用來處理指定操作符的回調函數的指針。你可以隨意命名這些回調函數。只要確保回調函數的名字和你傳入CGPDFOperatorTableSetCallback函數的名字是相同的即可。
代碼清單14-3為表14-1中列出的每個標記-文本操作符 設置了一個回調方法。你的應用應該為你感興趣的那些操作符設置回調方法。PDF操作符字符串由Adobe PDF Reference 制定。
清單 14-3 為操作表設置回調方法
CGPDFOperatorTableRef myTable;
myTable = CGPDFOperatorTableCreate();
CGPDFOperatorTableSetCallback (myTable, "MP", &op_MP);
CGPDFOperatorTableSetCallback (myTable, "DP", &op_DP);
CGPDFOperatorTableSetCallback (myTable, "BMC", &op_BMC);
CGPDFOperatorTableSetCallback (myTable, "BDC", &op_BDC);
CGPDFOperatorTableSetCallback (myTable, "EMC", &op_EMC);
打開PDF文檔
在你掃描PDF文檔之前,你必須打開它。清單14-4 展示了 從代碼中提供的URL創(chuàng)建一個CGPDFDocument對象的代碼片段。注意此清單只是一個代碼段,所以不是所有變量都定義了。此清單中用數字標注的代碼行都有詳細的解釋。
清單 14-4 從一個URL打開一個PDF文檔
CGPDFDocumentRef myDocument;
myDocument = CGPDFDocumentCreateWithURL(url);// 1
if (myDocument == NULL) {// 2
error ("can't open `%s'.", filename);
CFRelease (url);
return EXIT_FAILURE;
}
CFRelease (url);
if (CGPDFDocumentIsEncrypted(myDocument)) {// 3
if (!CGPDFDocumentUnlockWithPassword (myDocument, "")) {
printf ("Enter password: ");
fflush (stdout);
password = fgets(buffer, sizeof(buffer), stdin);
if (password != NULL) {
buffer[strlen(buffer) - 1] = '\0';
if (!CGPDFDocumentUnlockWithPassword (myDocument, password))
error("invalid password.");
}
}
}
if (!CGPDFDocumentIsUnlocked (myDocument)) {// 4
error("can't unlock `%s'.", filename);
CGPDFDocumentRelease(myDocument);
return EXIT_FAILURE;
}
}
if (CGPDFDocumentGetNumberOfPages(document) == 0) {// 5
CGPDFDocumentRelease(document);
return EXIT_FAILURE;
}
此處代碼做了哪些:
- 利用代碼中提供的URL創(chuàng)建一個CGPDFDocument對象。
- 檢查以確保CGPDFDocument對象被創(chuàng)建。如果沒有,代碼退出,因為沒有document繼續(xù)執(zhí)行沒有意義。
- 檢查document是否加密。如果document加密,則代碼試圖利用空密碼打開文檔。如果失敗,代碼要求用戶提供密碼并試圖用此密碼解鎖文檔。
- 檢查document是否解鎖,如果沒有,代碼退出。
- 檢查以確保document至少有一頁,否則,代碼退出。
掃描每頁的內容流
清單14-5 代碼段掃描文檔每一頁。當此scanner遇到一個注冊了回調方法的PDF操作符,Quartz就調用此回調方法。此清單中用數字標注的代碼行都有詳細的解釋。
清單 14-5 掃描文檔的每一頁
int k;
CGPDFPageRef myPage;
CGPDFScannerRef myScanner;
CGPDFContentStreamRef myContentStream;
numOfPages = CGPDFDocumentGetNumberOfPages (myDocument);// 1
for (k = 0; k < numOfPages; k++) {
myPage = CGPDFDocumentGetPage (myDocument, k + 1 );// 2
myContentStream = CGPDFContentStreamCreateWithPage (myPage);// 3
myScanner = CGPDFScannerCreate (myContentStream, myTable, NULL);// 4
CGPDFScannerScan (myScanner);// 5
CGPDFPageRelease (myPage);// 6
CGPDFScannerRelease (myScanner);// 7
CGPDFContentStreamRelease (myContentStream);// 8
}
CGPDFOperatorTableRelease(myTable);
此處代碼解釋:
- 得到你先前打開的document的頁數。見“Open thePDF Document.”
- 檢索掃描一頁。頁數以一開始。
- 為此頁創(chuàng)建內容流。
- 為內容流創(chuàng)建一個scanner。你必須傳入先前創(chuàng)建且在回調方法中設置的內容流和操作表。見“Create andSet Up the Operator Table.” 你也可以傳入你的回調方法中需要的任何數據。
- 解析與scanner相關聯的內容流。當Quartz每次遇到你在回調方法中提供的操作符時就會調用相應回調方法。
- 釋放 page
- 釋放 scanner
- 釋放 content stream
- 釋放 operator table 在PDF掃描完所有頁之后。