我們在做數據挖掘的時候,有時候遇到的數據,提供的基因名是ensemble號,人的話是ENSG開頭,比如ENSG00000141736,而我們寫文章的時候是不想用這串冷冰冰的數字的,因為不能直觀的讓人知道這到底是何物。
如果我們最后只得到這一個基因,那么隨便找一個數據庫就可以搜,比如在ncbi里面把這串數字輸入進去,就可以得到基因名。我們想要的是基因的縮寫,比如ERBB2,瞄一眼就知道是“酪氨酸激酶受體2 ”。
image.png
但是,很多情況下,我們需要的是批量檢索幾十個甚至上百個ENSG號,這時候我們可以從ensemble的官網去下載注釋列表用于檢索。
image.png
這一步經常需要加載一會,如果是人的,我們選擇human genes,
image.png
選擇完之后頁面會自動刷新,左邊點擊Attributes,在左邊選擇你最終生成的表格所需的信息,這里有很多信息,我們需要的是Gene stable ID(即Ensemble號)以及Gene name(即基因的縮寫),如果需要其他信息,一并選上就行。
選完之后點results,出現如下畫面,給了前十行的示意圖,點擊Go即可下載表格。
image.png
下載的文件默認叫做“mart_export.txt”,可以用excel打開,這個就是我們要的ensemble號和基因縮寫的對照表了。
image.png
從表格種粘貼一些ensemble號到右邊區域,作為示例,現在我們要用VLOOKUP函數需尋找這些基因的縮寫。
image.png
這里有四個參數需要設置,
第一個參數是選需要尋找的基因,注意只選擇第一個;
第二個參數選擇要去搜索的對照表,兩列全選就行;
第三個參數是需要輸出的列數,這里是第二列(注意這里的2的所選參照表里的第二列,而不一定是excel里面的第2列);
第四個參數是模糊匹配還是精確匹配,我們當然要精確的,填個0就行了,然后點確定, 得到結果
image.png
下面的基因直接下拉就行!
image.png