(轉載)Quartz 2D編程指南(14)--PDF文檔的解析

PDF文檔解析
Quartz提供了讓你檢查PDF文檔結構和內容流(contentstream)的函數.檢查文檔結構可以讓你讀取文檔目錄的條目和與每個條目相關的內容。通過遞歸地遍歷目錄,您可以檢查整個文檔。
一個PDF的內容流(contentstream)正如其名字所暗示的—一個連續(xù)的數據流 例如'BT 12 /F71 Tf (draw thistext) Tj . . . '此處PDF操作符以及他們的描述符都混有實際的PDF內容。檢查內容流,你需要按順序訪問它。
本章揭示了如何查看PDF文檔的結構和解析一個PDF文件的內容。
檢查PDF文檔結構
PDF文件可能包含多個頁面的圖像和文本。您可以使用Quartz訪問文檔和頁面級別的元數據以及PDF頁上的對象。本節(jié)提供了一個非常簡短的介紹,關于您可以訪問的元數據。
一個PDF文檔對象 (CGPDFDocument)包含了所有的信息,涉及到一個PDF文檔,包括它的目錄和內容。目錄中的條目的遞歸地描述了PDF文檔的內容。你可以訪問一個PDF文檔的內容通過調用函數CGPDFDocumentGetCatalog。
一個PDF頁面對象(CGPDFPage)代表PDF文檔中的一頁且包含此特定的頁面所有信息,包括頁面字典和頁面內容。您可以獲得一個頁面字典通過調用該函數CGPDFPageGetDictionary。
圖 14-1 展示了描述了兩張圖片的元數據—組成了圖13-2的PDF文件。
Quartz 2D編程指南(14)--PDF文檔的解析" style="border: 0px; max-width: 100%; margin: 0px; padding: 0px; list-style: none;">
你可以通過訪問PDF的元數據獲得更多有用的信息。圖14-1只是一個示例。例如,您可以通過使用圖14-1中的代碼檢查一個PDF是否有縮略圖(見圖14-2)。
清單 14-1 得到PDF的縮略視圖

CGPDFDictionaryRef d;

CGPDFStreamRef stream; // represents a sequence of bytes

d = CGPDFPageGetDictionary(page);

// check for thumbnail data

if (CGPDFDictionaryGetStream(d, “Thumb”, &stream)){

// get the data if it exists

data = CGPDFStreamCopyData (stream, &format);

Quartz為你執(zhí)行了所有數據流的解密和解密工作。
圖 14-2 縮略圖片
Quartz 2D編程指南(14)--PDF文檔的解析" style="border: 0px; max-width: 100%; margin: 0px; padding: 0px; list-style: none;">
Quartz提供了很多的功能,您可以使用它來獲得PDF的元數據中對應項的指定值。例如,您使用函數CGPDFObjectGetValue,傳入一個CGPDFObjectRef,和一個PDF對象類型(kCGPDFObjectTypeBoolean,kCGPDFObjectTypeInteger, 等等),以及一個存儲值的存儲空間。返回時,此存儲空間就被得到的值填充了。
還有很多其他的函數可以用來遍歷PDF文件的層次結構來訪問各個節(jié)點和他們的子節(jié)點。例如,CGPDFArray函數(CGPDFArrayGetBoolean, CGPDFArrayGet Dictionary, CGPDFArrayGetInteger,等等) 允許您訪問數組的值,以檢索特定類型的值。你可以通過閱讀閱讀PDF規(guī)范來找到更多關于如何使用這些函數。

解析PDF內容
PDF內容流包含操作符,表明一個PDF內容流的一部分對你的應用程序來說是感興趣的(解析時必須用到的???好搓)。一個操作符也標記一個單獨的點或一個序列。一個操作符被指定為一個標簽,此標簽擁有一個屬性列表或與它相關聯的對象。一個標簽指定了點或內容序列代表了什么。一個屬性列表是一本字典,其中包含PDF內容創(chuàng)造者指定的鍵-值對。當您解析一個PDF內容流時,您的應用程序查找感興趣的任何標記,檢查例如 標簽、屬性列表,或對象相關聯的標記,然后執(zhí)行任何進一步的處理,是合適的。參考PDF引用來查看PDF操作符的完整列表。

你使用CGPDFScanner對象(CGPDFScannerRef數據類型)來解析一個PDF內容流。CGPDFScanner對象調用在流中注冊了回調方法的任何操作符的回調方法。

你可以執(zhí)行以下部分所描述的任務來解析內容流:
1.“為操作符寫回調方法”你需要為你要操作的操作符編寫回調方法。
2.“創(chuàng)建和設置操作表”。
3.“打開PDF文檔”。
4.“掃描每頁的內容流”。
當這么做的時候,你應該確保釋放了 the scanner, content stream,and operator table。
下面的部分展示如何解析內容流找到標記-內容操作符marked-content operators)(見表14-1)。標記的內容操作符只代表部分用于PDF內容的PDF操作符。當您編寫自己的代碼時,你最好尋找適合您的應用程序的PDF操作符。
表 14-1 標注的內容操作符代表一些你可以解析的PDF操作符

**Operator**

**Description**

MP

有一個關聯標簽的標記點。

DP

有一個標簽和一個屬性列表或對象與它相關聯的標記點。

BMC

標志著一個標記內容序列的開始(開始標記內容)和標志一個內容序列結尾的EMC 標記是配對的。有一個相關聯的標簽。

BDC

標志著一個標記內容序列的開始和標志一個內容序列結尾的EMC 標記是配對的。有一個標簽和一個屬性列表或對象與之相關聯。

EMC

標志著一個以BMC或BDC標記開始的標記內容序列的結束(結束標記內容)。這個操作符沒有任何與之關聯的標簽。

為操作符編寫回調方法
當Quartz調用你的PDF操作符的回調方法時,它通過你的回調方法傳遞了一個CGPDFScanner對象和一個指向任何必要信息的指針。通常,你的回調方法檢索任何與操作符相關聯的項。例如,在14-2所展示的清單中對應于MP操作符的回調方法調用了CGPDFScannerPopName函數從堆棧中檢索與操作符相關聯的字符串。如果清單中的代碼成功的從scanner棧中檢索出name,就打印出來。
Quartz有各式各樣的CGPDFScannerPop函數用于檢索objects,Boolean values, names, numbers, strings, arrays, dictionaries, and streams.每個函數都返回一個布爾值表明是否成功檢索了該項。
清單14-2 MP操作符的回調方法

static void

op_MP (CGPDFScannerRef s, void *info)

{

const char *name;

if (!CGPDFScannerPopName(s, &name))

return;

printf("MP /%s\n", name);

}

創(chuàng)建并設置操作表
一個CGPDFOperatorTable對象存儲了你編寫的PDF操作符回調函數。函數CGPDFOperatorTableCreate創(chuàng)建了一個操作符表,如清單14-3所示。當你創(chuàng)建了一個操作符表之后,你要為每個你要加入到表中的回調方法調用函數CGPDFOperatorTableSetCallback。你傳入了操作表,指定PDF操作符的字符串,以及一個你編寫用來處理指定操作符的回調函數的指針。你可以隨意命名這些回調函數。只要確保回調函數的名字和你傳入CGPDFOperatorTableSetCallback函數的名字是相同的即可。
代碼清單14-3為表14-1中列出的每個標記-文本操作符 設置了一個回調方法。你的應用應該為你感興趣的那些操作符設置回調方法。PDF操作符字符串由Adobe PDF Reference 制定。

清單 14-3 為操作表設置回調方法

CGPDFOperatorTableRef myTable;

myTable = CGPDFOperatorTableCreate();

CGPDFOperatorTableSetCallback (myTable, "MP", &op_MP);

CGPDFOperatorTableSetCallback (myTable, "DP", &op_DP);

CGPDFOperatorTableSetCallback (myTable, "BMC", &op_BMC);

CGPDFOperatorTableSetCallback (myTable, "BDC", &op_BDC);

CGPDFOperatorTableSetCallback (myTable, "EMC", &op_EMC);

打開PDF文檔
在你掃描PDF文檔之前,你必須打開它。清單14-4 展示了 從代碼中提供的URL創(chuàng)建一個CGPDFDocument對象的代碼片段。注意此清單只是一個代碼段,所以不是所有變量都定義了。此清單中用數字標注的代碼行都有詳細的解釋。
清單 14-4 從一個URL打開一個PDF文檔

CGPDFDocumentRef myDocument;

myDocument = CGPDFDocumentCreateWithURL(url);// 1

if (myDocument == NULL) {// 2

error ("can't open `%s'.", filename);

CFRelease (url);

return EXIT_FAILURE;

}

CFRelease (url);

if (CGPDFDocumentIsEncrypted(myDocument)) {// 3

if (!CGPDFDocumentUnlockWithPassword (myDocument, "")) {

printf ("Enter password: ");

fflush (stdout);

password = fgets(buffer, sizeof(buffer), stdin);

if (password != NULL) {

buffer[strlen(buffer) - 1] = '\0';

if (!CGPDFDocumentUnlockWithPassword (myDocument, password))

error("invalid password.");

}

}

}

if (!CGPDFDocumentIsUnlocked (myDocument)) {// 4

error("can't unlock `%s'.", filename);

CGPDFDocumentRelease(myDocument);

return EXIT_FAILURE;

}

}

if (CGPDFDocumentGetNumberOfPages(document) == 0) {// 5

CGPDFDocumentRelease(document);

return EXIT_FAILURE;

}

此處代碼做了哪些:

  1. 利用代碼中提供的URL創(chuàng)建一個CGPDFDocument對象。
  2. 檢查以確保CGPDFDocument對象被創(chuàng)建。如果沒有,代碼退出,因為沒有document繼續(xù)執(zhí)行沒有意義。
  3. 檢查document是否加密。如果document加密,則代碼試圖利用空密碼打開文檔。如果失敗,代碼要求用戶提供密碼并試圖用此密碼解鎖文檔。
  4. 檢查document是否解鎖,如果沒有,代碼退出。
  5. 檢查以確保document至少有一頁,否則,代碼退出。
    掃描每頁的內容流
    清單14-5 代碼段掃描文檔每一頁。當此scanner遇到一個注冊了回調方法的PDF操作符,Quartz就調用此回調方法。此清單中用數字標注的代碼行都有詳細的解釋。

清單 14-5 掃描文檔的每一頁

int k;

CGPDFPageRef myPage;

CGPDFScannerRef myScanner;

CGPDFContentStreamRef myContentStream;

numOfPages = CGPDFDocumentGetNumberOfPages (myDocument);// 1

for (k = 0; k < numOfPages; k++) {

myPage = CGPDFDocumentGetPage (myDocument, k + 1 );// 2

myContentStream = CGPDFContentStreamCreateWithPage (myPage);// 3

myScanner = CGPDFScannerCreate (myContentStream, myTable, NULL);// 4

CGPDFScannerScan (myScanner);// 5

CGPDFPageRelease (myPage);// 6

CGPDFScannerRelease (myScanner);// 7

CGPDFContentStreamRelease (myContentStream);// 8

}
CGPDFOperatorTableRelease(myTable);

此處代碼解釋:

  1. 得到你先前打開的document的頁數。見“Open thePDF Document.”
  2. 檢索掃描一頁。頁數以一開始。
  3. 為此頁創(chuàng)建內容流。
  4. 為內容流創(chuàng)建一個scanner。你必須傳入先前創(chuàng)建且在回調方法中設置的內容流和操作表。見“Create andSet Up the Operator Table.” 你也可以傳入你的回調方法中需要的任何數據。
  5. 解析與scanner相關聯的內容流。當Quartz每次遇到你在回調方法中提供的操作符時就會調用相應回調方法。
  6. 釋放 page
  7. 釋放 scanner
  8. 釋放 content stream
  9. 釋放 operator table 在PDF掃描完所有頁之后。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,460評論 6 538
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 99,067評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,467評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,468評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,184評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,582評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,616評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,794評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 49,343評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,096評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,291評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,863評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,513評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,941評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,190評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,026評論 3 396
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,253評論 2 375

推薦閱讀更多精彩內容