featuresCounts
軟件用于定量,不僅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。
featureCounts 需要兩個輸入文件:
1)reads的比對情況,這種信息通常都用BAM/ SAM文件來存儲
2)區間注釋文件,支持兩種格式
安裝
conda install subread
運行
featureCounts?-p?-a?00ref/Araport11_GFF3_genes_transposons.201606.gtf?\?#注釋文件
-o?our_counts.txt?\?#輸出文件
-T?6?-t?exon?\
-g?gene_id?sample*_Aligned.sortedByCoord.out.bam?#對這部分文件進行定量
運行結果:產生兩個文件out counts . txt和out_ counts.txt.summary
featureCounts運行
查看out counts . txt文件,里面包含有geneid,染色體位置,基因起始結束的位置以及基因的count數
out counts . txt
表達定量結果轉換為表達矩陣
#構建矩陣
rsem-generate-data-matrix?*.genes.results?>?output.?matrix
矩陣輸出結果
#刪除未檢測到表達的基因(剔除表達量為0的基因)
awk?'BEGIN{printf"geneid\ta1\ta2\tb1\tb2\n"}{if($2+$3+$4+$5>0)print?$0}'
out.matrix?>?deseq2_input.tx
結果:查看文件的行數,刪除未檢測到表達基因的行數
###查看文件的行數
wc -l output.matrix
wc -l deseq2_input.txt