歡迎關注天下博客:http://blog.genesino.com/2018/01/literature-search/
傻瓜系列重啟了,如何快速查找指定基因的調控網絡介紹了使用在線查詢數據庫 (http://evexdb.org/)對PubMed和PubMed Central中發表文章的摘要和全文為依據進行文本挖掘探尋基因直接可能的相互作用的工具。反響很好,但現在網站似乎出了點問題,獲得的相互作用細節信息不能展開了(推測可能是使用的JS庫無法加載)。有朋友留言推薦 Cytoscape literature search,一個存在歷史挺久的Cytoscape插件,通過給定關鍵字搜索文獻,并且基于搜索結果構建互作網絡,幫助研究者快速搜索和提取基因之間,蛋白之間可能的聯系,兼容2.7和3.1版本,下載32,742次。
作為Cytoscape的插件,安裝很方便,基本的Cytoscape使用見Cytoscape之操作界面介紹和新出爐的Cytoscape視頻教程。前段時間R, Cytoscape, AI的培訓班也涉及了更多的Cytoscape的使用。
安裝完之后,從菜單欄Apps
-Agilent Literature Search
啟動,使用界面如下。
左側一般輸入一個或多個基因 (若輸入多個則每一行輸入一個),右邊限制一個環境,可以是物種,也可以是某種疾病如lung cancer
,或某個過程stem cell
。下面的選項還可以選擇是否使用別名 (選擇后我們輸入的pou5f1
就被轉成了oct4
, otf4
等),限定物種,限定相互作用的判斷 (個人一般使用relaxed)。具體每個參數的含義詳見后面解釋。
前面輸入的內容都會在Query Editor
中轉換為邏輯查詢表達式的形式,方便查看搜索的內容是否符合自己的需要,也可以自行修改,比如我們把stem cell
改為AND
連接。
[圖片上傳失敗...(image-6e2852-1517211124303)]
點擊藍色箭頭
就可以啟動搜索。搜索到的文獻展示在左下角,可點擊跳轉到PubMed,右鍵刪除某一項。
右側展示的是挖掘出的調控網絡,可以根據屬性進行一些修飾、美化和查詢。
[圖片上傳失敗...(image-8852b1-1517211124303)]
網絡查看和美化
首先是調大字體 (Label Font Size
),設置搜索出的基因和挖掘出的相互作用基因不同的顏色 (Fill Color-searchTerm-Discrete Mapping
), 刪掉與核心基因沒有連線的點,Apply preferred layout重新調整布局 (工具欄上的刷新按鈕)。
如果覺得線太過扭曲,可以Layout-Clear all edge bends
,然后再點擊Layout-Bundle edges
使連接看上去圓潤。初步修飾下,效果如下:
[圖片上傳失敗...(image-12ac21-1517211124303)]
如果常用,每次調樣式也比較麻煩,可以把樣式保存起來,點擊樣式旁的三道杠,選擇Copy style
重新命令 (若不導出,關閉后就不見了),然后File-Export
導出。下次查詢好之后,再File-Import
導入就好。也可后臺回復 style,獲取我們這個簡單的樣式,以此為基礎修改。
每個節點,點擊右鍵,按下圖點選菜單,可以看到支持其相互作用的文章句子節選,方便快速閱讀和理解潛在的調控關系。
[圖片上傳失敗...(image-abf041-1517211124303)]
更多Cytoscape的使用見之前的新出爐的Cytoscape視頻教程。在R, Cytoscape, AI的培訓中也有我們的主講老師講的更多的Cytoscape的使用。(后臺回復 培訓 ,跳轉到培訓網站查看視頻)
選項解釋
尋求幫助
在上述查詢界面,按F1
或點Help
可以打開幫助頁面如下。當前截圖顯示的是通過View菜單選擇搜索的數據庫,現在只有PubMed
和USPTO
(美國商標專利數據庫)可選。
[圖片上傳失敗...(image-a7215a-1517211124303)]
Max Engine Matches: 限制每個字符串在每個庫最大查詢到的結果數目。
Use Aliases: 選定后,將會根據Concept Lexicon
中限定的物種尋找左側輸入框輸入的內容的別名。查詢時,有一個別名匹配上就可以。
Use context: 是否使用Context面板 (右側輸入框)限定查詢。
Concept Lexicon Limits Search: 如果需要把搜索結果限制在某個物種,則勾選。
Concept Lexicon: 通常是物種相關的選項,對Use aliases
的判斷和搜索結果提取有效,但不用于限制查詢結果。所以如果要在查詢時就限制物種,則需要再右側輸入框輸入物種的名字,會加快查詢速度。
Interaction Lexicon: 限制判斷相互作用的嚴格程度。對于每個包含搜索關鍵字的句子,都會來判斷里面是都包含interaction lexicon
收錄的動詞,如activate
, enhance
, cause
等。這些關鍵詞可以修改,有嚴格版和寬松版。
Load and Save: 搜索結果可以存儲和再次導入。
選項進一步解釋和自定義
如果Windows下,LiteratureSearch的配置文件在目錄C:\Users\sxbd\CytoscapeConfiguration\app-data\com.agilent.labs.als.AgilentLiteratureSearch-3.1.1\data下。(把sxbd
改為您的用戶名)
Interaction Lexicon:前面提到的limit
, relax
, empty
每一個的效果都記錄在文件interaction-lexicon-map.txt
中,文件內容如下
limited data/strictVerbNames.txt
relaxed data/verbNames.txt
empty data/emptyVerbNames.txt
每個不同的參數表示使用的關鍵詞列表不同,empty
表示不進行限定,只要兩個詞出現在一個句子中就認為有作用。
strict
表示嚴格限定,默認要求句子中必須含有收錄的15個單詞中的一個才認為存在相互作用 (在文件strictVerbNames.txt
)。
relaxed
默認要求句子中必須含有收錄的75個單詞中的一個才認為存在相互作用,涉及促進、抑制、結合、催化等對應的英文單詞和變種,在使用過程中,我們也可以不斷完善、添加更多詞匯到verbNames.txt
中,以獲得更多關注的相互作用。
Concept Lexicon
這個由文件concept-lexicon-map.txt
控制,默認收錄了常見物種的KEGG注釋信息、基因的別名信息。
Arabidopsis thaliana data/.uc_Arabidopsis_thaliana
Bos taurus data/.uc_Bos_taurus
Caenorhabditis elegans data/.uc_Caenorhabditis_elegans
Danio rerio data/.uc_Danio_rerio
Drosophila melanogaster data/.uc_Drosophila_melanogaster
Escherichia coli data/.uc_Escherichia_coli
Homo sapiens data/.uc_Homo_sapiens
Mus musculus data/.uc_Mus_musculus
Rattus norvegicus data/.uc_Rattus_norvegicus
Saccharomyces cerevisiae data/.uc_Saccharomyces_cerevisiae
以人的數據為例,前面是KEGG編號、對應的描述,后面是基因的每個名字一行,方便使用別名搜索。
6.3.5.8 aminodeoxychorismate synthase adc synthase 4-amino-4-deoxychorismate synthase pabb
6.3.5.9 hydrogenobyrinic acid a, c-diamide synthase (glutamine-hydrolysing) cobb
dynamin dynamin-1 dynamin1
dynamin-2 dynamin2
epsin epsin1 epsin-1
nf-kappaB nfkappaB nfkb1 nfkb nf-kappa B nfkappa B
frizzled fz fzd fzd7
dsh disheveled dishevelled dsh1 dvl1l1 dvl1
bcatenin beta-catenin beta catenin))
之前如何快速查找指定基因的調控網絡文章下有朋友留言,非模式生物怎么查找,一個是利用生信寶典之傻瓜式(四)蛋白蛋白互作網絡在線搜索中提到的在線工具STRING收錄了2031物種。另外一個就是在這自定義需要的文件,使用此插件搜索。