在變異檢測的所有階段,都需要對文件進行索引,不管是輸入的基因組文件,還是輸出的比對結果和變異結果文件。不同的軟件處理會生成不同的索引,供后續不同的軟件使用,但不可避免的會出現特殊情況。
對于一般物種的比對結果,可以使用samtools index
進行索引創建,會輸出bam.bai
的文件,在后續數據提取以及變異檢測步驟都會用到,但是對于某些物種而言,由于染色體長度的限制,并不能使用該方法進行索引的創建,比如小麥
$ samtools index Triticum_aestivum.bam
[E::hts_idx_push] Region 536870795..536870945 cannot be stored in a bai index. Try using a csi index with min_shift = 14, n_lvls >= 6
去查小麥的基因組之后,發現單條染色體的長度在450M以上,這么長的染色體真的可以說是獨樹一幟,非常任性了。
1A 594102056
1B 689851870
1D 495453186
2A 780798557
2B 801256715
2D 651852609
3A 750843639
3B 830829764
3D 615552423
4A 744588157
4B 673617499
4D 509857067
5A 709773743
5B 713149757
5D 566080677
6A 618079260
6B 720988478
6D 473592718
7A 736706236
7B 750620385
7D 638686055
沒有索引的情況下是很難對大文件進行處理的,找了很多的帖子,均說使用bcftools或者samtools可以使用csi索引的bam文件進行變異檢測,但是若傾向于使用gatk來進行,怎么辦呢。
有兩個方法,第一個是將染色體進行拆分,可查看文獻(https://doi.org/10.1186/s13059-019-1744-x),分段進行變異檢測。第二個方法,更新的gatk4是支持使用csi索引的,相比于gatk3,這又是一個優勢。
參考文獻
[1] Cheng, H., Liu, J., Wen, J. et al. Frequent intra- and inter-species introgression shapes the landscape of genetic variation in bread wheat. Genome Biol 20, 136 (2019).
[2] http://www.htslib.org/doc/samtools-index.html
[3] https://gatk.broadinstitute.org/hc/en-us