讓我看看誰還不會用deeptools可視化(bcpp)

一、deeptools安裝

見我寫的第一篇文章《Conda 安裝軟件萬能鏈接》:Conda安裝軟件萬能鏈接


二、deeptools可視化要用到4個小命令——bamCoverage、computeMatrix、plotProfile 、plotHeatmap,我簡稱bcpp一整套(方便記憶,哈哈哈,為啥叫一整套就說明了這4個小命令是可以連著用的,緊密性很強。)


deeptools官網:deeptools官網

bamCoverage官網說明書:bamCoverage官網說明書

或者直接在節點上直接輸:deeptools bamCoverage --help 查看參數和用法,但是官網說明書還有原理更方便理解。

computeMatrix官網說明書:computeMatrix官網說明書

或者直接在節點上直接輸:deeptools computeMatrix --help 查看參數和用法,但是官網說明書還有原理更方便理解。

plotProfile 官網說明書:plotProfile官網說明書

或者直接在節點上直接輸:deeptools plotProfile --help 查看參數和用法,但是官網說明書還有原理更方便理解。

plotHeatmap 官網說明書:plotHeatmap官網使用說明書

或者直接在節點上直接輸:deeptools plotheatmap --help 查看參數和用法,但是官網說明書還有原理更方便理解。


(后面會更新每一個小命令的具體原理和參數說明)




三、實際操作(參數可以根據自己的數據進行調整探索!世界上沒有兩片完全相同的葉子!!!)


1、bamCoverage:將bam文件轉化為bigwig文件,bw文件可以直接導入IGV進行可視化。

bamCoverage -b x.bam -of bigwig -o x.bw -p 20 --ignoreDuplicates --binSize 10 --normalizeUsing RPKM

注:

?-b:輸入的bam文件 。

-o:輸出的文件 。

?--ignoreDuplicates:忽略重復,也就是說具有相同方向和起始點的reads只會識別一次不會重復識別。

--binSize(-bs):設置輸出的文件的bins大小,默認值是50。

--normalizeUsing :可選值有RPKM、CPM、BPM、RPGC、None。默認值是None。


2、computeMatrix:生成矩陣,有兩種方式:一種是scale-regions , 另外一種是reference-point ,具體見官網說明書。

①?scale-regions mode:

computeMatrix scale-regions -R X.gene.bed -S x.bw --smartLabels -p 20 --binSize 10 -b 3000 -a 3000 --regionBodyLength 5000 --sortRegions keep -o x.gz --outFileSortedRegions computeMatrix_x.bed --outFileNameMatrix matrix_x.tab

注:

-R:后面跟gene.bed文件,該文件可以從基因注釋文件(gff3格式)轉化而來。

-S:后面跟上一步產生的bw文件。

-p:??要使用的處理器數量。默認值是1。

--binSize: bin大小。默認值是10。

-b:? ??所選參考點的上游距離。默認值是500。

-a:? ? ?所選參考點的下游距離。默認值是1500。

--regionBodyLength:默認值是5000。

--sortRegions:輸出文件是否應該顯示排序的區域。默認情況下不對區域進行排序。如果需要輸出順序與輸入區域匹配,則指定“keep”。默認值是keep。

-o:? ? 輸出文件。

--outFileSortedRegions:跳過0或最小/最大閾值后保存區域的文件名。文件中區域的順序與所選的排序順序一致。

--outFileNameMatrix:?如果選擇這個選項,則熱圖的基礎值矩陣將使用指定的名稱保存。這個矩陣可以很容易地加載到R或其他程序中。


②?reference-point mode:

computeMatrix reference-point --referencePoint TSS -b 3000 -a 3000 -R X.gene.bed -S x.bw --skipZeros -o matrix_x_TSS.gz --outFileSortedRegions computeMatrix_x_TSS.bed

注:

-R:? ?后面跟gene.bed文件,該文件可以從基因注釋文件(gff3格式)轉化而來。

-S:? ?后面跟上一步產生的bw文件。

-b:? ? ?所選參考點的上游距離。默認值是500。

-a:? ? ?所選參考點的下游距離。默認值是1500。

--skipZeros:分數為零的區域是否應該被包括在內。默認是包括它們。

-o:? ? ? 輸出文件。

--outFileSortedRegions:?跳過0或最小/最大閾值后保存區域的文件名。文件中區域的順序與所選的排序順序一致。

--outFileNameMatrix:?如果選擇這個選項,則熱圖的基礎值矩陣將使用指定的名稱保存。這個矩陣可以很容易地加載到R或其他程序中。


如果以轉錄終止位點為參考位點的話就將TSS換成TES。


3、plotProfile:矩陣文件可視化。

plotProfile -m matrix_x.gz -out Profile_x.pdf --outFileNameData plotProfile_x.tab

注:

-m:?矩陣文件。

-out:保存的文件名。文件的結尾即圖像的格式。可用的選項有:" png ", " eps ", " pdf "和" svg "。

--outFileNameData:保存平均配置文件的基礎數據。


4、plotHeatmap:創建基因組區域相關的得分熱圖。

plotHeatmap -m matrix_x.gz -out x_Heatmap.png

注:

-m: 矩陣文件。

-out:?保存的文件名。文件的結尾即圖像的格式。可用的選項有:" png ", " eps ", " pdf "和" svg "。



四、結果

1、bamCoverage結果是生成一個bw文件,然后我導入IGV查看結果如下:




? ? ? ? ? ? ?還可以將peak.bedgraph和基因注釋文件gff3文件一起導入IGV進行查看


2、plotProfile結果:



scale-regions mode


reference-point mode



reference-point mode



3、plotHeatmap結果:




?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容