初學RNA-seq,用于有參原核轉錄組的分析,主要參照DESeq2說明書:(Analyzing RNA-seq data with DESeq2)和(RNA-seq workflow: gene-level exploratory
analysis and differential expression)。reads的count矩陣來源于featureCounts的結果,為原始mapping上的reads數,其格式如下:
readscount.png
接下來構建DESeq2分析所需的分組信息,分組信息包括了實驗的分組情況和平行樣的情況。比如在我使用的數據中R0_1和R0_2是同一個處理的兩個平行樣,而R0,R16,R24和R32是不同的處理(就是不同培養時間的樣本)。那么分組信息可以按照如下格式構建為dataframe
coldata<-data.frame(batch=c("r1", "r2", "r1", "r2", "r1", "r2", "r1", "r2"), condition=c("R0", "R0", "R16", "R16", "R24", "R24", "R32", "R32"), stringsAsFactors = T)
格式如下:
image.png
在構建DESeq數據集時,使用design參數告訴DESeq分組信息:
library(DESeq2)
dds <- DESeqDataSetFromMatrix(countData, colData=coldata, design= ~ batch+condition)
至此,完成了從featureCounts原始數據到R中DESeq2分析所需數據集的建立。可以使用colData命令查看分組是否正確:
image.png
也可以直接運行dds顯示數據集的信息:
image.png
其中:
class:DESeqDataSet #類別為DEseq數據集
dim:5846 8 #數據集共5846行,8列
assays(1): counts # 分析數據為readscount
colData names(2): batch condition #分組信息的名字