四、基因ID轉換

#去掉數(shù)據(jù)框中基因id的小數(shù)點以及小數(shù)點的后兩位
library(stringr)
rownames(exp) = str_split(rownames(exp),"\\.",simplify = T)[,1]
#會損失部分基因

01.需求

TCGA的RNA-seq數(shù)據(jù)使用的geneid是ensembl id,兩個常見的需求:

1.差異分析結果中每個ensembl id對應的symbol和類型(mRNA/lncRNA或其它)

2.將行名從ensembl id 轉換為symbol

02.思路

1.找到TCGA數(shù)據(jù)對應的參考基因組注釋版本。

2.下載該版本的參考基因組注釋文件,提取ensembl id 與symbol的對應關系及每個基因的gene type信息。

3.可以將symbol和gene type 用merge添加到差異分析結果中,也可以在差異分析前先轉換矩陣的行名。

03.動起來

1.找參考基因組版本

gdc首頁的support → about the data 中的 GDC Reference Files → 可以看到使用的參考基因組版本是genecode的v22。(版本很多,這個是14年的版本了)

2.找區(qū)分類型的列

在gtf文件里并不是直接分出了lncRNA,需要找gtf文件里對biotype的說明,不看不知道,一看發(fā)現(xiàn)這是一個很長的表格。

其中對lncRNA的說明是:

Generic long non-coding RNA biotype that replaced the following biotypes: 3prime_overlapping_ncRNA, antisense, bidirectional_promoter_lncRNA, lincRNA, macro_lncRNA, non_coding, processed_transcript, sense_intronic and sense_overlapping.

所以需要將genetype里這些類型對應的行挑出來,就是lncRNA了。 然后與表達矩陣行名進行匹配替換,就可以分別得到mRNA和lncRNA的矩陣了。

options(stringsAsFactors = F)
if(!file.exists("gtf_gene.Rdata")){
  #step1:讀取并探索gtf文件----
  #BiocManager::install("rtracklayer")
  library(rtracklayer)
  gtf = rtracklayer::import("gencode.v22.annotation.gtf")
  class(gtf)
  gtf = as.data.frame(gtf);dim(gtf)#轉換成數(shù)據(jù)框格式
  colnames(gtf)
  table(gtf$type)
  #step2:先篩選出gene對應的行
  gtf_gene = gtf[gtf$type=="gene",]
  save(gtf_gene,file = "gtf_gene.Rdata")
}
load("gtf_gene.Rdata")
load("TCGA-CHOL_DEG.Rdata")
deg = DESeq2_DEG
table(rownames(deg) %in% gtf_gene$gene_id)#看所有表達矩陣中的行名是不是都存在于gtf中
#> 
#> FALSE  TRUE 
#>     3 30345

an = gtf_gene[,c("gene_name","gene_id","gene_type")]
deg = merge(deg,an,by.x = "row.names",by.y = "gene_id")#可直接根據(jù)行名來索引

# mRNA和lncRNA總共有多少個?

lnc = c("3prime_overlapping_ncRNA", "antisense", "bidirectional_promoter_lncRNA", "lincRNA", "macro_lncRNA", "non_coding", "processed_transcript", "sense_intronic" , "sense_overlapping")

k1 = gtf_gene$gene_type %in% lnc;table(k1)#lncRNA數(shù)量
#> k1
#> FALSE  TRUE 
#> 45657 14826
k2 = gtf_gene$gene_type == "protein_coding";table(k2)#mRNA數(shù)量
#> k2
#> FALSE  TRUE 
#> 40669 19814

# deg中有多少mRNA和lncRNA?

k3 = deg$gene_type %in% lnc;table(k3)#表達數(shù)據(jù)中的lncRNA數(shù)量
#> k3
#> FALSE  TRUE 
#> 22844  7501
k4 = deg$gene_type =="protein_coding";table(k4)#表達數(shù)據(jù)中的mRNA數(shù)量
#> k4
#> FALSE  TRUE 
#> 12881 17464

# 差異的 mRNA和lncRNA 各有多少
k5 = deg$change !="NOT"
table(k3&k5)
#> 
#> FALSE  TRUE 
#> 29949   396
table(k4&k5)
#> 
#> FALSE  TRUE 
#> 29261  1084

表達矩陣的行名id轉換

做差異分析之前先轉換ID

rm(list = ls())
load("TCGA-CHOL_gdc.Rdata")
load("gtf_gene.Rdata")
an = gtf_gene[,c("gene_name","gene_id","gene_type")]
exp = exp[rownames(exp) %in% an$gene_id,]#match要求內容相同順序不同,第一個元素中不可以有后面不存在的東西,后面可以有前面沒有的東西
an = an[match(rownames(exp),an$gene_id),]#以rownames(exp)為標準調整an
identical(an$gene_id,rownames(exp))
#> [1] TRUE

#給矩陣換行名時,行名不能有重復,但是這里gene_name中有重復
k = !duplicated(an$gene_name);table(k)#兩個對應數(shù)據(jù)取子集
#> k
#> FALSE  TRUE 
#>   193 30152

an = an[k,]#gene_name只保留一個
exp = exp[k,]#exp只保留一個

rownames(exp) = an$gene_name

# 最終得到的結果
exp[1:2,1:2]
#>        TCGA-W5-AA36-01A-11R-A41I-07 TCGA-W5-AA2H-01A-31R-A41I-07
#> TSPAN6                         2504                          226
#> DPM1                           1272                         1146

save(exp,file = paste0(cancer_type,"_symbol_exp.Rdata"))

*全部為自生信技能樹課堂筆記

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容