一、deeptools?multiBamSummary詳細介紹
官網說明書——deeptools multiBamSummary
功能:計算兩個以上(含兩個)BAM文件的基因組區域的覆蓋度。
兩種模式:
? ? ? ? bin模式是對全基因組進行計算,針對大小相等的bins(默認值:10kb),這種模式用于評估BAM文件的全基因組相似性;
? ? ? ? BED-file模式是對指定區域進行計算。
標準輸出文件:
? ? ? ? 以.npz為后綴的文件,該文件不僅可以直接用于deeptools中的“plotCorrelation”計算并可視化覆蓋度之間的相關性,而且也能用于deeptools中的“plotPCA”進行主成分分析。
二、deeptools?multiBamSummary用法及參數
(1)bins mode
multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz
--bamfiles(-b):bam文件
--outFileName(-out / -o ):? 輸出文件名。
參數:
--labels(-l ) : 非默認的標簽,用戶自定義文件名標簽。標簽之間用空格隔開。
--smartLabels: 不用手動給輸入的bam文件加標簽,deeptools 會移除路徑和擴展名后使用文件名。
--genomeChunkSize : 手動指定基因組大小。默認值為不指定,由bam文件的read 密度決定。
--binSize (-bs): 用于樣品的基因組窗口大小。默認值是10kb。
--distanceBetweenBins (-n ): 默認情況下,multiBamSummary認為窗口是連續的。但是,為了節省計算時間,可以指定比窗口數更大的間隔長度,服務器會識別更少的bins.默認值是0。
--version: 顯示程序版本號并退出。
--region(-r): 用于限制運行的基因組區域。當測試參數時,利用--region這個參數可以大大減少運行時間。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。
--blackListFileName(-bl):bed或gtf格式文件能夠包括不用于分析的區域。通過排除基因組區塊,能夠產生重疊區域。對于Bam文件而言,如果一條read有部分黑名單區域或者片段間隔,那么這個read或者fragment也仍會被考慮在內。如果有相關情況,注意你應該調整有效的基因組大小。
--numberOfProcessor(-p): 使用處理器的數量。默認值是1。
--verbose(-v): 設置查看運行消息。
--outRawCounts:保存的couts數區域(制表符隔開)文件。
--scalingFactors:計算比例因子(DESeq2 方式)能用于bamCoverage并寫入一個文件。該文件用制表符隔開樣品列和比例因子列。
--extendReads(-e) : 該參數可以把reads擴展到fragment大小。
--ignoreDuplicates:具有相同起始終止位點的reads僅讀一次。
--minMappingQuality:那些至少達到最低mapping質量得分的reads才能被考慮在內。
--centerReads:相對于片段長度,reads處于中心位置。
--samFlagInclude:基于sam flag包括在內的reads。默認值:None。
--samFlagExclude:基于sam flag之外的reads。默認值:None。
--minFragmentLength:最小的片段長度。默認值為0。
--maxFragmentLength:最大的片段長度。默認值為0。
(2)BED-file mode
multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -o results.npz
參數:
--bamfiles(-b):bam文件,文件之間用空格隔開。
--outFileName(-out/-o): 輸出文件名。
--BED:限制覆蓋度分析的區域。
--labels(-l ) : 非默認的標簽,用戶自定義文件名標簽。標簽之間用空格隔開。
--smartLabels: 不用手動給輸入的bam文件加標簽,deeptools 會移除路徑和擴展名后使用文件名。
--genomeChunkSize : 手動指定基因組大小。默認值為不指定,由bam文件的read 密度決定。
--version: 顯示程序版本號并退出。
--region(-r): 用于限制運行的基因組區域。當測試參數時,利用--region這個參數可以大大減少運行時間。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000。
--blackListFileName(-bl):bed或gtf格式文件能夠包括不用于分析的區域。通過排除基因組區塊,能夠產生重疊區域。對于Bam文件而言,如果一條read有部分黑名單區域或者片段間隔,那么這個read或者fragment也仍會被考慮在內。如果有相關情況,注意你應該調整有效的基因組大小。
--numberOfProcessor(-p): 使用處理器的數量。默認值是1。
--verbose(-v): 設置查看運行消息。
--outRawCounts:保存的couts數區域(制表符隔開)文件。
--scalingFactors:計算比例因子(DESeq2 方式)能用于bamCoverage并寫入一個文件。該文件用制表符隔開樣品列和比例因子列。
--extendReads(-e) : 該參數可以把reads擴展到fragment大小。
--ignoreDuplicates:具有相同起始終止位點的reads僅讀一次。
--minMappingQuality:那些至少達到最低mapping質量得分的reads才能被考慮在內。
--centerReads:相對于片段長度,reads處于中心位置。
--samFlagInclude:基于sam flag包括在內的reads。默認值:None。
--samFlagExclude:基于sam flag之外的reads。默認值:None。
--minFragmentLength:最小的片段長度。默認值為0。
--maxFragmentLength:最大的片段長度。默認值為0。
GTF/BED12 參數:
--metagene : 當BED12或GTF文件用于提供區域,會計算合并的外顯子,而不是用5'端或3'端來定義間隔。默認值是False。
--transcriptID: 當GTF文件用于提供區域,第三列transcript用于計算。默認值是transcript。
--exonID: 當GTF文件用于提供區域,第三列exon用于計算。默認值是exon。
--transcript_id_designator: 默認值是transcript_id。
三、deeptools?multiBamSummary實際操作
multiBamSummary bins --bamfiles x.bam y.bam --binSize=500 -p 20 --smartLabels -out readCounts.npz --outRawCounts readCounts.tab