最近計劃給師弟師妹講citespace,由于沒怎么用,忘了不少。找出一年前的筆記,做個簡單整理順下思路。
一、Citespace介紹
Citespace是一款基于Java語言開發的引文可視化分析軟件,它能幫助我們挖掘到熱門主題、關鍵性文獻,分析出某領域的發展歷程。其靈感來源于庫恩的《科學革命的結構》“科學研究的重點隨著時間變化有時比較遲緩,有時比較劇烈”。由于是通過可視化的手段呈現科學知識的結構、規律和分布情況,因此最后得到的可視化圖形被稱為“科學知識圖譜”。
中文博客-陳超美教授:http://blog.sciencenet.cn/u/ChaomeiChen
學術主頁-陳超美教授:http://www.pages.drexel.edu/~cc345/
二、界面簡介
Project:新項目的建立、編輯、刪除
Time Slicing:對將要分析的數據進行時區分隔,其中years per slice 指按多少年進行切割。對于參考文獻和施引文獻,前者的時間段和時間切片的設置要比后者更加豐富,時間切片的不同會影響到突發性探測的結果,顯著性較強的節點受到的影響會比較小。
Text processing:包含Text Source 和 Text Type,前者是用于選擇Term提取的位置,包含標題、摘要、作者關鍵詞、WoS的增補關鍵詞;后者是對共詞分析類型的補充選擇,選擇該功能就可以提取到名詞性術語(Noun Phrase),在此處也可以對主要的名詞術語進行突發性探測(Burst Dectection),在運行- - Noun Phrase生成共詞網絡后可以查看熵值(Entropy)
-
Node Types:網絡的類型
1.png Author:作者合作網絡分析,包含了各個作者在網絡中的重要性指標及網絡屬性。Ps該領域作者之間的合作關系,是否有合作
Institution:機構合作網絡分析,可以得到各個研究領域中的研究力量分布
Contry :國家合作網絡分析
Term:主題共現分析,term表示文章中的標引詞,term來源可以來自文章標題、摘要及關鍵詞部分,citespace軟件運行過程中如果采用了term詞標示,需要在面板term source 模塊下選擇term 的來源,可以選擇一個來源,也可以選擇多個來源。使用term分析要比關鍵詞分析更深入到文本內容,反映出來的信息也更全面。
Keyword:關鍵詞共現分析,分析對象為文檔中的DE和ID字段,得到結果為關鍵詞共現網絡,此網絡可以反映出某一領域當前研究熱點及過去產生過哪些熱點研究。
Category:學科共現分析,用于交叉學科的分析,分析對象為文檔中的SC字段,通過構建學科關聯網絡,可以揭示出各個學科之間的內在聯系。
Cited Reference:文獻的共被引分析,參考文獻共被引是指兩篇參考文獻被同一篇文獻引用的現象,通過分析共被引網絡中的聚類及關鍵節點,可以揭示出某個研究領域的知識結構。
Cited Author:作者的共被引分析,作者共被引是指兩個作者共同被其他文獻引用的現象。Citespace軟件計算作者共被引時只考慮第一作者共被引情況,并且同一作者在同一篇文獻中被引用多次也按一次計算。通過計算共被引作者關系,可以得到作者共被引網絡圖,圖中可以揭示出某個研究領域的學術共同體
Cited Journal:期刊的共被引分析,期刊共被引是指兩本期刊被同一篇文獻引用的現象,期刊共被引所反映的是各類期刊及學科間的關聯性。通過期刊共被引分析可以獲得某研究領域的知識基礎分部。
Paper:文獻耦合分析功能,分析施引文獻之間的耦合關系,及兩篇文獻引用了相同的一篇或多篇參考文獻,得到的結果為文獻耦合網絡。
Grants:基金分析功能,分析文獻的基金資助情況,得到的結果為資助基金的共現網絡。
Author、Institute、Country用來進行Co-authorship分析,它們之間的差異僅僅是因為在分析合作上的主體粒度不同而已。Term:主要對文獻中名詞性術語的提取,主要從文獻的標題、摘要、關鍵詞和索引詞位置提取。Keyword 主要是對作者的原始關鍵詞的提取。它們常常用來對文本主體進行共詞的挖掘分析。Category是對文獻中標引的科學領域的共現分析,這種分析有助于了解對象文本在科學領域中的分布情況。
三、常用數據庫
WOS、Scopus的數據結構是最完整的,Derwent、CSSCI次之,CNKI的完整性最小。CNKI是以WOS數據為基礎的。通常收集的文獻題錄數據有:PT文獻類型,AU作者,SO期刊,DE關鍵詞,AB摘要,CI機構,CR參考文獻。
需要注意:基于CNKI下載文獻時使用Refworks格式,此外citespace對數據文本命名有特殊要求:download_xxx(Download有時不能識別)
四、術語知識
Betweenness centrality:測度節點在網絡中的重要性,在citespace中它可以幫助我們發現和衡量文獻的重要性,并用紫色圓圈進行標注。
Burst檢測:突發主題、文獻、作者及期刊印證信息。
citation tree-rings:引文年環,代表著某篇文獻的引文歷史,引文年輪的顏色代表相應的引文時間,一個年輪厚度和相應時間分區內引文數量成正比。
Thresholds:閾值,其設定方式一共有4種:Top N、TopN%、ThresholdInterpolation、SelectCiters。
- Top N選取被引次數最高的N個引文
- TopN%先按被引次數排序再按百分比(N%)選取引文,這兩種方式各時間分區的閾值完全相同。
- 閾值插值(Threshold Interpolation)從被引頻次c(citation)、兩篇文獻的共被引頻次cc(cocitation)和共被引系數ccv(cosinecoefficient)三個層次設置閾值,其中ccv計算公式為,其中cc(i,j)是文獻i和文獻j的共被引次數,c(i)和c(j)是各自的被引次數,例如在某個時間分區里,文獻i和文獻j共被引2次,文獻i被引4次,文獻j被引3次,則ccv=2/sqrt(4×3)≈0.577它在整個時間跨度的第一個、中間一個、最后一個時間分區分別設定閾值錨點,其余時間分區的閾值利用線性插值算法來計算,實現了不同時間分區閾值的個性化。
- 選擇施引文獻(Select Citers)先根據引文記錄中的TC字段值篩選施引文獻,然后需再用Top N、TopN%、ThresholdInterpolation中其中一種方法作為閾值篩選施引文獻中的參考文獻。Space Status文本框中space欄對應數值為該時間分區內引文的有效參考文獻數目,題錄字段缺失及重復的參考文獻不計入,nodes指滿足閾值條件的參考文獻數目。Process Reports中Records withinthe chosen range的值指有效的引文數量,缺少參考文獻的引文不記數。
施引、被引和來源文獻
- 施引文獻:引用當前文獻的后續文獻,即新出版的引用當前文獻的文章
- 被引文獻:當前文獻引用的文獻(引用的直接出處)
- 來源文獻:當前文獻引用的文獻(引用的原始出處)
比如論文A上一理論是原創的,被論文B轉載或摘抄了部分內容,然后自己寫論文又用到了B里的相關內容。那么B就是“被引文獻”(直接引用了內容),A則是“來源文獻”(實際的內容出處)。
五、關鍵所在
在操作前要運用盡可能廣泛的專業術語來確定所關注的知識領域,一遍所得到的結果能盡可能地涵蓋所關注領域的全部內容。在確定專業術語時,可以通過查看專業領域的主題詞表和通過咨詢領域的專家的方法。確定好術語后,需要采用主題、標題、關鍵詞進行檢索,在檢索過程中要注意剔除干擾信息,比如征稿之類。之后進行提取研究前沿術語、時區分割、閾值選擇的操作。
六、操作步驟
總的來說,使用citespace進行文獻分析的關鍵步驟一共有9步:
- 確定研究主題及其相關術語
運用盡可能廣泛的專業術語來確定所關注的知識領域,這是為了所得到的結果盡可能地涵蓋所關注領域的全部內容。 - 收集數據
對于WoS中下載的數據,citespace可以直接讀取和分析,但是從其他數據庫所收集的數據需要轉化才可以進行分析 - 提取研究前沿術語
從數據可文獻的題目,摘要,關鍵詞等中找到出現頻次增長率快速增加的專業術語,將其確定為研究前沿術語 - 進行時區分割
明確要分析的時間跨度以及時間跨度的分段長度 - 設置閾值
CiteSpace在單個時間分區按閾值控制網絡節點數量,滿足閾值條件的引文才會被可視化,其設定方式一共有4種:Top N、TopN%、ThresholdInterpolation、SelectCiters。 - 網絡精簡和合并
在citespace中有兩種網絡精簡算法,pathfinder和MST,在對數據進行初始分析時,一般不做任何精簡。通過初步得到的結果后,再決定采用哪一種精簡方法。 - 可視化顯示
citespace的默認視圖是網絡圖,除此外還有Timeline和Timezone視圖 - 可視化編輯和檢測
在得到圖譜后,可以通過可視化界面進行編輯美化圖形,也可以利用提供的網絡計算功能對網絡進一步分析。 - 分析結果的驗證
使用citespace后針對得到分析結果,要與熟悉領域、專業內容的學者進行溝通,特別是對于網絡中突出的關鍵節點進行咨詢溝通。
參考資料:
1.citespace學習摘要及心得(摘自《引文空間分析原理及應用》)
3.《CiteSpace 科技文本挖掘及可視化》
整理了citespace最新版和java安裝包,可在公眾號回復"citespace安裝包"獲取。