用faCount計算有效基因組大小

faCount是UCSC中的一個工具,UCSC的安裝可以看我的相關筆記
faCount可以統計得到基因組數據中的總堿基數基因組裝配中缺失堿基數(即被標位N的堿基)。
有效基因組大小 = 總堿基數 - 被標為N的堿基數

$ faCount csi.chromosome.fa
#seq    len     A       C       G       T       N       cpg
chr1    28800734        8998530 4599939 4612033 8991187 1599045 454414
chr2    30837053        9651458 4941569 4953578 9646645 1643803 477195
chr3    28714068        8835469 4553243 4556295 8807282 1961779 455628
chr4    19953105        6147050 3199362 3202541 6194030 1210122 313534
chr5    36146064        11203242        5782007 5785538 11207898        2167379 564410
chr6    21179577        6595931 3401500 3396773 6606163 1179210 336809
chr7    32205053        9868781 5124838 5113035 9845517 2252882 510283
chr8    22710839        6925300 3568907 3567985 6935555 1713092 347638
chr9    18450726        5609179 2911080 2926460 5646576 1357431 293562
chrUn   88947451        25456073        13151652        13216648        25413739        11709339        1250058
total   327944670       99291013        51234097        51330886        99294592        26794082        5003531

如上得到的數據中:
總堿基數 = 327944670
被標為N的堿基數 = 26794082
有效基因組大小 = 327944670 - 26794082 = 301150588


?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容