看了大量文獻后，你的硬盤上想必存下不少PDF文件。能否充分利用它們，挖掘出你獨特的領域知識地圖呢？本文為你提供一種簡便易行的辦法。

疑問

在網上寫文章最大的好處，是經常可以收到讀者的反饋。不少讀者會提出一些好問題，時常給我以啟發。

前些日子，我寫了《如何快速梳理領域文獻》一文，為大家講解了如何使用VosViewer這一文獻可視化分析工具，快速梳理領域文獻。

有讀者來信，提出一個疑問：

是否有軟件支持導入PDF文件，直接做文獻可視化分析呢？

我看到這個問題，開始一愣，繼而會心一笑。

愣的原因是，我之前沒有想過會有這樣的需求。因為做文獻可視化分析的時機，往往是我們剛剛接觸某一個領域，不確定哪些文獻應該重點閱讀。

這時候，信息的來源是文獻數據庫（Web of Science, Scopus等）的檢索結果。這些導出的檢索結果里面包含了足夠的可供分析的元數據信息（作者、機構、時間、國別、期刊等）。

然而PDF文件可就不一樣了。雖然它包含了文獻的全文，但是卻并不更適合提煉元數據信息，做文獻可視化分析。尤其是比起元數據導出格式（例如RIS等），它的體積又大得多。

因此，很難想象一個文獻可視化工具會選用PDF作為數據源。

于是，我打算如實回答，在我接觸過的若干種主流文獻可視化工具里，沒有哪一款支持這樣的功能。

但是，我旋即想起了哈佛大學營銷學教授萊維特（Theodore Levitt）的那句經典名言：

人們其實不想買一個1/4英寸的鉆頭。他們只想要一個1/4英寸的洞。

如果透過表象，洞察用戶的實際需求，我就立刻能理解這位讀者的痛點在哪里了。

痛點

對科研工作者來說，已閱讀文獻（大多是PDF格式）的管理，確實是個非常實際的難題。

我們經常會從各種文獻數據庫里下載閱讀文獻，也因此會在硬盤里積攢下大量的PDF文件。這些文獻往往是在相對較長的一段時間內積累起來的，許多都經過了研究者的掃讀(skimming)甚至是精讀，確認和研究主題密切相關，才被一直保留下來。

當然，如果你閱讀后發現文獻不相關，都懶得整理……算我沒說。(幸好做可視化分析的時候，這部分文獻可以相對容易地被識別出來。)

跟文獻數據庫里檢索結果全集比起來，這些PDF數量雖多，一般也只是一個子集，并不夠全面和完備。但是我們對其更熟悉，而且這些文獻也更能準確刻畫我們對某個領域的掌握程度。

有的學科發展很快，研究熱點文獻噴涌而出。例如雙中子星合并被人類首次觀測當夜，就有若干篇相關文章發了出來。研究者硬盤里PDF文件積累成百上千篇，毫不稀奇。

一旦文獻數量超越了鄧巴數，你再想要“如數家珍”，難度就會大幅上升。大部分人甚至都會忘記，自己曾經下載、存儲并瀏覽過某個PDF文件。

如果能夠利用文獻可視化工具，對這些文獻做梳理，會有助于我們理清自己掌握文獻的脈絡，做到心中有數。

更進一步，如果我們把手頭PDF文件的可視化結果，與全局檢索結果的分析圖形進行對比，還可以明顯看出自己對領域掃描是否全面。這將有助于我們找準大方向，避免在文獻叢林中迷失。

這樣看來，讀者的問題就透露出非常有意義的需求。

這種需求，未必需要通過一個全功能的，可以直接從PDF做出分析的文獻可視化工具一站式完成。

我們可以把它拆解為兩個環節：

從PDF文件提煉文獻元數據信息；
將元數據信息輸入到文獻可視化工具做分析。

第二個環節，我在《如何快速梳理領域文獻》一文中，已經做了詳細的介紹。需要補充的是，后來我的學生還做了一個全中文的視頻教程，從頭到尾展示了一次文獻采集和分析過程。歡迎訪問這個鏈接來觀看。

我今天向你展示，如何從PDF文件提煉文獻元數據信息。

當然，你完全可以打開PDF文件，把其中各種元數據信息手工提煉出來，然后照葫蘆畫瓢，存儲成Web of Science等文獻數據庫的導出格式，輸入到VosViewer中。

但是，這顯然效率很低，而且非常容易出錯誤。

工欲善其事，必先利其器。我們會采用一款非常優秀的文獻管理工具，完成這一過程。

工具

這款工具，叫做Zotero。

安仁心智的董事長陽志平先生，曾經撰寫了系列文章，詳細介紹了Zotero的特色、功用和操作方法。建議你讀完本文后，認真通讀該系列文章。

本文只涉及到Zotero的幾個非常簡單實用的功能。因此如果你沒有聽說過Zotero，對它不熟悉，也不要緊。一步步按照下文的步驟操作就可以了。

請到這個網址下載最新版本的Zotero。

我使用的是macOS版本。下載后的格式為dmg。雙擊打開該文件后，拖拽Zotero應用圖標到Application目錄的快捷方式里，即可完成安裝。

從Application目錄下，找到Zotero應用，打開。

你就可以看到Zotero的主界面了。我很想給你展示一個空白的Zotero界面，可惜我已經在其中存儲了許多文獻內容了。

下文中，我新建了一個空白類別目錄，為你演示。

工具準備好了，下面我們來逐步展示操作流程。

操作

Zotero導入PDF文件，是非常方便的，只需要拖拽即可。下面這個GIF動圖為你演示了使用方法。

這時，你點擊某個PDF文件，右側的狀態欄會有文件描述。但是你可以看到，目前描述內容很少。只有文件名、頁碼和修改日期等。

不過我們可以很方便地利用Zotero的“重新抓取PDF元數據”功能，獲得完整的文獻描述信息。

例如下面這個動圖，演示了如何右鍵菜單選擇“重新抓取PDF元數據”，將PDF文件變成元數據完備的文獻記錄。

此時，右側的狀態欄里，文獻信息可就清晰多了。

可以看到，標題、作者、期刊……甚至是頁碼都采集完整了。

下面我們需要把文獻集合的信息導出。為了和后續的文獻可視化工具配合，請注意一定要選擇RIS格式。

我們打開導出后的RIS文件，預覽內容：

RIS文件里包含了許多做文獻分析需要用到的元數據。但是眼尖的你一定會發現，這里缺少參考文獻列表信息。因此，你無法做用它做文獻網絡分析。但是它依然可以幫助我們挖掘很多有用的信息。

我們在VosViewer下新建一個項目。

從選項中，可以看到第二項(Create a map based on bibliographic data)或者第三項(Create a map based on text data)功能的數據讀入方式，都支持RIS格式。

我們用第二項試試看。默認選項下，它可以抽取合著者(co-authorship)信息。

因為樣例中文獻數量較少，所以我們降低了默認閾值，以獲得更為豐富的結果。

分析結果的密度圖如下：

可以看到，你收集的文獻中有哪些作者相對高產，以及他們之間的聯系。

我們再試試第三項。分析主題信息。

由于過程與第二項類似，我們就不再贅述了。分析結果如下圖所示。

VosViewer正確識別出了我們查找的文獻主題是大數據和競爭情報的關聯，而且揭示了許多文獻采用的方法是Web信息抽取。

必須說明，此處我們只是為了展示操作方法，采用了非常簡單的文獻集。參數設置也沒有經過合理的調整。從數量這么小的文獻集合里，能獲得的知識和洞見是非常有限的。如果你積攢的PDF文件數量足夠多，那效果就會大不一樣了。

小結

讀過本文后，希望你已了解以下內容：

如何用Zotero導入和管理PDF文獻；
如何用Zotero抓取PDF文獻的元數據；
如何將Zotero中的文獻集合信息輸出給VosViewer等可視化分析工具；
如何挖掘和準確定義用戶的需求；
如何結合不同的工具來綜合解決問題，嘗試滿足用戶需求。

與Zotero類似的文獻管理工具還有很多。Mendeley, Papers, ReadCube等工具都很優秀，也具備PDF元信息獲取功能。我個人偏好Zotero，因為它小巧、強大，還免費。

討論

你平時閱讀的PDF文件多嗎？你是如何有效管理它們的？你使用過哪些優秀管理工具？它們的特色是什么？歡迎留言，把你的經驗和心得分享給大家，我們一起交流討論。

如果你對我的文章感興趣，歡迎點贊，并且微信關注和置頂我的公眾號“玉樹芝蘭”(nkwangshuyi)。

如果本文可能對你身邊的親友有幫助，也歡迎你把本文通過微博或朋友圈分享給他們。讓他們一起參與到我們的討論中來。

延伸閱讀

如何用《玉樹芝蘭》入門數據科學？

數據科學相關文章合集（玉樹芝蘭）

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

如何對PDF文獻做可視化分析？

如何對PDF文獻做可視化分析？

疑問

痛點

工具

操作

小結

討論

延伸閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

如何對PDF文獻做可視化分析？

疑問

痛點

工具

操作

小結

討論

延伸閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频