上周為了督促自己有效的學習,立下了每周至少更一篇生信學習筆記的flag。
本打算從這周開始先寫一系列的生信基礎概念知識,沒想到很快就接到了大佬Jimmy老師的一個小任務:如何拿到 KEGG數(shù)據(jù)庫的 hsa04650 Natural killer cell mediated cytotoxicity通路的所有基因名字。
經(jīng)過一下午的查資料,看代碼,終于理順了中間的相關知識,下面我將跟大家分享一下如何使用R語言找出hsa04650 Natural killer cell mediated cytotoxicity通路的所有基因名字。
一、安裝R語言必須的包
首先,安裝“KEGGREST”包,第一次安裝時電腦顯示與當前R語言版本不配,我的電腦是R-3.5.2版本,于是到官網(wǎng)下載了本地包,還是沒有安裝成功,最終bioconductor 的官網(wǎng)下載了安裝代碼,運行成功,其源代碼如下:
二、加載包,查看KEGG有哪些數(shù)據(jù)庫
其源代碼如下:
結果顯示這個包,包含了KEGG數(shù)據(jù)庫的19個子數(shù)據(jù)庫,其中4個主要的數(shù)據(jù)庫為"pathway"、"genes" 、"ligand"、 "brite",其他的子數(shù)據(jù)庫是在這4個數(shù)據(jù)庫的基礎上衍生出來的。
其中"pathway"數(shù)據(jù)庫提供發(fā)生在細胞內(nèi)各種反應的人工繪制途徑圖,以網(wǎng)絡形式呈現(xiàn)。"genes" 數(shù)據(jù)庫存儲KEGG中注冊的已經(jīng)測序的基因組信息。"ligand"數(shù)據(jù)庫可以查詢化合物、多糖以及酶促反應等信息。
"brite"是將生物信息按等級層次分類歸納的數(shù)據(jù)庫,其中所包含的KEGG、KO是用于同源性識別的系統(tǒng)。其他的數(shù)據(jù)庫就先不講了,以后在學習中具體用到,在具體講解。
三、返回信息表,獲取 hsa04650 通路的信息
使用 organism 函數(shù)返回信息表;使用 keggGet 函數(shù)獲取人類基因信號通路 hsa04650 的信息,結果包括通路里面的基因,基因間的聯(lián)系方式,以及鏈接等等。其源代碼如下:
四、提取出GENE對象,查找所有基因
接下來我們提取出GENE對象,因為GENE這一個對象就是包含基因name的數(shù)據(jù)框,并查找所有基因,其源代碼如下:
由于結果太大,筆記中只顯示了部分主要結果。最后,想說的是我知道學習一個新知識很難,但一旦開始做了,就會慢慢變的簡單,如果你覺的一個人很難堅持,跟和我們一起堅持學習,一起變的越來越好。
參考資料:
[1] 生信菜鳥團:http://www.bio-info-trainee.com/3533.html
[2]http://www.bioconductor.org/packages/release/bioc/html/KEGGREST.html
[3] https://blog.csdn.net/rojyang/article/details/82344002
[4]https://www.cnblogs.com/djx571/p/9634804.html https://www.docin.com/p371165058.htmlhttps://www.cnblogs.com/leezx/p/6221621.html?utm_source=itdadao&utm_medium=referral
[5]http://www.lxweimin.com/p/e8b8896f64e9