faCount是UCSC中的一個工具,UCSC的安裝可以看我的相關筆記。
faCount可以統計得到基因組數據中的總堿基數和基因組裝配中缺失堿基數(即被標位N的堿基)。
有效基因組大小 = 總堿基數 - 被標為N的堿基數
$ faCount csi.chromosome.fa
#seq len A C G T N cpg
chr1 28800734 8998530 4599939 4612033 8991187 1599045 454414
chr2 30837053 9651458 4941569 4953578 9646645 1643803 477195
chr3 28714068 8835469 4553243 4556295 8807282 1961779 455628
chr4 19953105 6147050 3199362 3202541 6194030 1210122 313534
chr5 36146064 11203242 5782007 5785538 11207898 2167379 564410
chr6 21179577 6595931 3401500 3396773 6606163 1179210 336809
chr7 32205053 9868781 5124838 5113035 9845517 2252882 510283
chr8 22710839 6925300 3568907 3567985 6935555 1713092 347638
chr9 18450726 5609179 2911080 2926460 5646576 1357431 293562
chrUn 88947451 25456073 13151652 13216648 25413739 11709339 1250058
total 327944670 99291013 51234097 51330886 99294592 26794082 5003531
如上得到的數據中:
總堿基數 = 327944670
被標為N的堿基數 = 26794082
有效基因組大小 = 327944670 - 26794082 = 301150588