一、deeptools安裝
見我寫的第一篇文章《Conda 安裝軟件萬能鏈接》:Conda安裝軟件萬能鏈接
二、deeptools可視化要用到4個小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap,我簡稱bcpp一整套(方便記憶,哈哈哈,為啥叫一整套就說明了這4個小命令是可以連著用的,緊密性很強。)
deeptools官網:deeptools官網
bamCoverage官網說明書:bamCoverage官網說明書
或者直接在節點上直接輸:deeptools bamCoverage --help 查看參數和用法,但是官網說明書還有原理更方便理解。
computeMatrix官網說明書:computeMatrix官網說明書
或者直接在節點上直接輸:deeptools computeMatrix --help 查看參數和用法,但是官網說明書還有原理更方便理解。
plotProfile 官網說明書:plotProfile官網說明書
或者直接在節點上直接輸:deeptools plotProfile --help 查看參數和用法,但是官網說明書還有原理更方便理解。
plotHeatmap 官網說明書:plotHeatmap官網使用說明書
或者直接在節點上直接輸:deeptools plotheatmap --help 查看參數和用法,但是官網說明書還有原理更方便理解。
(后面會更新每一個小命令的具體原理和參數說明)
三、實際操作(參數可以根據自己的數據進行調整探索!世界上沒有兩片完全相同的葉子!!!)
1、bamCoverage:將bam文件轉化為bigwig文件,bw文件可以直接導入IGV進行可視化。
bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM
注:
?-b:輸入的bam文件 。
-o:輸出的文件 。
?--ignoreDuplicates:忽略重復,也就是說具有相同方向和起始點的reads只會識別一次不會重復識別。
--binSize(-bs):設置輸出的文件的bins大小,默認值是50。
--normalizeUsing :可選值有RPKM、CPM、BPM、RPGC、None。默認值是None。
2、computeMatrix:生成矩陣,有兩種方式:一種是scale-regions , 另外一種是reference-point ,具體見官網說明書。
①?scale-regions mode:
computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab
注:
-R:后面跟gene.bed文件,該文件可以從基因注釋文件(gff3格式)轉化而來。
-S:后面跟上一步產生的bw文件。
-p:??要使用的處理器數量。默認值是1。
--binSize: bin大小。默認值是10。
-b:? ??所選參考點的上游距離。默認值是500。
-a:? ? ?所選參考點的下游距離。默認值是1500。
--regionBodyLength:默認值是5000。
--sortRegions:輸出文件是否應該顯示排序的區域。默認情況下不對區域進行排序。如果需要輸出順序與輸入區域匹配,則指定“keep”。默認值是keep。
-o:? ? 輸出文件。
--outFileSortedRegions:跳過0或最小/最大閾值后保存區域的文件名。文件中區域的順序與所選的排序順序一致。
--outFileNameMatrix:?如果選擇這個選項,則熱圖的基礎值矩陣將使用指定的名稱保存。這個矩陣可以很容易地加載到R或其他程序中。
②?reference-point mode:
computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed
注:
-R:? ?后面跟gene.bed文件,該文件可以從基因注釋文件(gff3格式)轉化而來。
-S:? ?后面跟上一步產生的bw文件。
-b:? ? ?所選參考點的上游距離。默認值是500。
-a:? ? ?所選參考點的下游距離。默認值是1500。
--skipZeros:分數為零的區域是否應該被包括在內。默認是包括它們。
-o:? ? ? 輸出文件。
--outFileSortedRegions:?跳過0或最小/最大閾值后保存區域的文件名。文件中區域的順序與所選的排序順序一致。
--outFileNameMatrix:?如果選擇這個選項,則熱圖的基礎值矩陣將使用指定的名稱保存。這個矩陣可以很容易地加載到R或其他程序中。
如果以轉錄終止位點為參考位點的話就將TSS換成TES。
3、plotProfile:矩陣文件可視化。
plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab
注:
-m:?矩陣文件。
-out:保存的文件名。文件的結尾即圖像的格式。可用的選項有:" png ", " eps ", " pdf "和" svg "。
--outFileNameData:保存平均配置文件的基礎數據。
4、plotHeatmap:創建基因組區域相關的得分熱圖。
plotHeatmap -m matrix_x.gz -out x_Heatmap.png
注:
-m: 矩陣文件。
-out:?保存的文件名。文件的結尾即圖像的格式。可用的選項有:" png ", " eps ", " pdf "和" svg "。
四、結果
1、bamCoverage結果是生成一個bw文件,然后我導入IGV查看結果如下:
? ? ? ? ? ? ?還可以將peak.bedgraph和基因注釋文件gff3文件一起導入IGV進行查看
2、plotProfile結果:
scale-regions mode
reference-point mode
reference-point mode