歡迎關注”生信修煉手冊”!
早在2013年的時候, 就已經有科學家提出了利用Hi-C數據來輔助基因組組裝的思路,可以將scaffold進一步提升到染色體級別的長度,并提供了配套的分析軟件LACHESIS
。該軟件默認輸入的基因組組裝結果完全正確,后續的操作都是建立在這個前提下。然而實際情況中,受到組裝算法的限制,基因組草圖中會存在拼接錯誤的情況。
在2017年的時候,又有科學家提出了利用hi-c輔助基因組組裝的新思路,并利用該思路進行了埃及伊蚊的基因組組裝,對應的文章發表在science上,鏈接如下
https://science.sciencemag.org/content/356/6333/92/tab-pdf
在該文章提供的分析思路中, 首先會根據hi-c數據的結果,對輸入的基因組組裝結果中的拼接錯誤進行校正,然后在進行后續分析,整個pipeline如下圖所示
可以分成以下4個大的步驟
preliminary filtration
misjoin correction
ordering and orientation
-
overlap merging
第一步首先對基因組組裝的結果進行預處理,去除長度太短的scafflod。長度過短的scaffold在hi-c圖譜中對應的交互信息會非常的少,沒有足夠的交互信息無法有效的進行后續分析;第二步利用hi-c數據校正scaffold中存在的拼接錯誤,對于檢測到存在拼接錯誤的scaffold, 將其切割為存在拼接錯誤的inconsistent
部分和未檢測到拼接錯誤的consistent
部分,inconsistent
部分不會進行后續分析。
第三步確定歸屬同一條染色體的scaffold,并進行排序和調整方向;第四步檢測同一條染色體上的scaffold間是否存在overlap, 對于存在overlap的scaffold, 進行merge。
應用該算法結合hi-c數據對埃及伊蚊的基因組結果重新組裝后,效果如下所示
可以看到,由最初的草圖組裝到了最終的染色體級別。該算法對任意的基因組組裝都是適用的,值得一提的是該文章指出,通過hi-c數據輔助基因組組裝得到的最終結果中,還是會存在部分的錯誤結果,這個是不可避免的。
文章中對應的軟件鏈接如下
https://github.com/theaidenlab/3d-dna
后續會詳細介紹其用法。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關注微信號,更多精彩內容等著你!