NCBI對應UCSC,對應ENSEMBL數據庫:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
如果使用基于GRCH37的衍生參考基因組版本,建議使用hs37d5,這幾個版本的基因組的主要區別介紹如下:
1)GRCH37,b37,hs37d5(b37+decoy)與hg19、GRCH38(hg38)的來源: hg19來自UCSC,GRCH37來自NCBI,b37來自千人基因組第一期,建議使用的是b37的升級版hs37d5,來源于千人基因組計劃第二期,也是目前Broad正在使用的兩個基于hg19的基因組版本之一(另一個版本無hs37d5,即decoy序列)。
2)GRCH37,b37和hs37d5的區別: 可以將hs37d5理解為b37的升級版,b37為GRCH37的升級版。b37在GRCH37的基礎上進行命名和坐標系統規范,包括線粒體和GL開頭的一些沒有定位到基因組的序列;hs37d5在b37基礎上增加了一條病毒序列(皰疹病毒),一條decoy序列(hs37d5,來自BAC或者質粒克隆等,沒有具體的變異檢測的作用,但是能增加比對率,以及提升正確的比對率),并且在Y染色體上把X,Y染色體的同源區mark 成了N。
3) hg 19與hs37d5的區別: hg19與hs37d5的坐標系統一樣,1-X,Y染色體堿基信息一模一樣。區別是(不考慮scaffold的區別):
線粒體有差別(版本不一樣,hs37d5用的是修正版的NC_012920,而hg19是老版的NC_001807),建議使用NC_012920(也有基于hg19更新線粒體信息的hg19基因組)。
UCSC參考基因組中有大小寫堿基,小寫表示在repeat區(Repeats from RepeatMasker and Tandem Repeats Finder)。
染色體編號表示不同,hg19帶有chr,hs37d5直接是染色體編號
4)hs37d5和GRCH38(hg38)的區別: GRCH38是GRCH37的升級版,總體組裝的堿基數量,基因的坐標位置等許多信息的更新,具體區別可參考PPT
每次基因組版本的升級,比如從hg18到hg19,再到hg38,坐標系統已經不一樣,所以分析過程中使用了某個基因組,去公共數據庫查詢頻率,位置等信息時,都要對應到使用的參考基因組查詢相關信息,才能保持信息的一致性。另外,如果需要,基因組坐標間也能通過LiftOver進行轉換。
5)以下是hg19和GRCH37衍生版本之間差異及信息的說明網址,可供參考:https://wiki.dnanexus.com/Scientific-Notes/human-genome
各版本參考基因組下載地址:
hg19/hg38下載地址 http://hgdownload.cse.ucsc.edu/downloads.html#human
GRCH37/GRCH38下載地址 https://www.ncbi.nlm.nih.gov/genome/guide/human/
本文固定鏈接: http://qgenomics.org/?p=1152
轉載于: H-Yu 2017年03月23日 于 Qgenomics 發表