單倍體組裝工具Hifiasm簡介及基本運行命令(一)

隨著測序技術(shù)的發(fā)展及新的組裝工具的不斷開發(fā)應(yīng)用,基因組denovo測序及組裝進入了Genomic2.0時代,我認為Genomic2.0時代的標志有兩點:1. 三代長讀長測序及Hi-C測序技術(shù)在基因組denovo測序上的用;2.組裝方法上,Canu和Hifisam等工具不斷被開發(fā)應(yīng)用出來,有的工具極大的降低了算力要求,有的工具能夠?qū)⒒蚪M組裝到單體型水平,也就是將同源或非同源的兩套多套染色體分別組裝出來,因此,最近幾年,不僅很多物種的基因組被公布,而早些年間即使被公布了的基因組,也都利用新的測序及組裝策略進行了更新。今天我先學(xué)習(xí)Hifiasm工具。

一.Hifiasm工具簡介:

Hifiasm是哈佛大學(xué)李恒團隊提出的一種全新的單倍體基因組組裝算法, 2021年2月份發(fā)表在Nature Methods上[ref1]。它可以多線程運行,對計算資源消耗教少,組裝快,結(jié)果準確性和連續(xù)性較高。Hifiasm (Hi-C) 針對PacBio HiFi (High-Fidelity) 長讀長測序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測序技術(shù)進行了全新的設(shè)計。該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長距離互作用信息以達到全局定相 (phasing),從而獲得不依賴親本信息的染色體級別的單倍型組裝結(jié)果。為了進一步提高組裝質(zhì)量,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略。

二.算法簡介

Hifiasm組裝主要分為三步。

Step1: 測序錯誤堿基糾錯

盡管Hifi reads準確性已經(jīng)很高了,但仍然會有部分測序(<1%)錯誤,Hifiasm會先通過所有序列的相互比對(all vs all),對測序錯誤進行糾正。在比對中,基于reads間的overlap關(guān)系,如果同一個位置的reads出現(xiàn)兩種堿基類型,且每個堿基類型至少有3條reads支持,那么這個位置會被當作雜合位點,即一個SNP被保留,否則,視作測序錯誤,將被糾正(默認三輪糾錯)。值得注意的是,Hifiasm只使用相同單倍型的數(shù)據(jù)進行糾錯,從而避免過度校正,保留來自不同單倍型的雜合變異信息。在這一步,Hifiasm可以對雜合SNP進行定相(phasing)。

Step2: 構(gòu)建分型字符串圖(phased string graph)

根據(jù)序列之間的重疊關(guān)系,構(gòu)建分型字符串圖string-graph。Hifiasm以reads作為頂點,一致的overlap重疊區(qū)域作為邊,保留全部的氣泡(bubble)即保留了所有的雜合位點(圖1),因而可以保留下來基因組上全部的單倍型信息,以便后續(xù)對于單倍型的處理。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1. Hifiasm組裝算法示意圖

Step3: 單倍體分型組裝

如果沒有額外的信息,Hifiasm在輸出序列時會任意選擇氣泡的一側(cè)構(gòu)建初級組裝,刪除多余的單倍體,輸出結(jié)果類似Falcon unzip和HiCanu的主要組裝結(jié)果(primary contigs)。優(yōu)于HiCanu需要依賴第三方工具去除dups序列,Hifiasm內(nèi)部實現(xiàn)了去除dups的算法優(yōu)化,簡化了流程。如果有來自父母本的測序數(shù)據(jù),Hifiasam可以利用親本特有的Kmer在圖上識別出了父母本的序列,從而得到來自父母本的單倍體基因組序列。

在基于父母本特有Kmer時,區(qū)別于TrioCanu軟件的trio-binning策略,先將三代reads區(qū)分為來自父本、母本以及部分無法區(qū)分的reads后對區(qū)分后的reads分別組裝獲得了子代的兩套單倍體序列,Hifiasm使用了graph-binning的策略對此進行了改進。它不預(yù)先劃分reads,而是在string-graph中對reads進行標記。因此在一個較長的bubble中,即使只有一小部分reads被正確標記,hifiasm也可以正確地將其定相。通過這種方式,可以避免因為reads劃分錯誤而引入的錯誤位點和組裝斷裂,從而獲得更完整和更準確的單倍體組裝結(jié)果[ref2]。

三.軟件使用

1.軟件及測試數(shù)據(jù)下載

Github鏈接:https://github.com/chhylp123/hifiasm;

下載后make編譯;

下載測試數(shù)據(jù):

wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz

2.運行程序;

hifiasm使用時根據(jù)已有的數(shù)據(jù)分為三種模式: 2.1.只有HiFi數(shù)據(jù)(基本)模式; 2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測序的Trio-binning模式。

2.1# Run on test data,基本模式,

./hifiasm -o test -t4 -f0 chr11-2M.fa.gz 2> test.log

awk '/^S/{print ">"$2;print $3}' test.bp.p_ctg.gfa > test.p_ctg.fa? # get primary contigs in FASTA

參數(shù)解釋:-o 輸出文件前綴, -f0 小數(shù)據(jù)使用,-t 線程數(shù)

awk提取主要的contig,這句話意思是對S開頭行處理,提取序列名稱$2和序列$3,獲得超長的contig序列;

可選參數(shù)--primary: 不組裝分型,只有primary和alternate的組裝結(jié)果

運行完成后需要關(guān)注的結(jié)果?(prefix表示前綴):

test.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph;

test.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph;

test.bp.p_ctg.gfa (Primary assembly contig graph):主要contig的assembly graph, 對于低雜合度物種來說,優(yōu)先選擇該文件;對于高雜合度物種,該結(jié)果代表其中一個單倍型;

test.bp.p_utg.gfa(Haplotype-resolved processed unitig graph without small bubbles): 無小氣泡的單倍型解析, 在raw unitig graph基礎(chǔ)上過濾小的bubble,去掉由于體細胞突變和數(shù)據(jù)背景噪音引起的small bubbles(這個并不是真正的單體型信息),對于高度雜合基因組物種優(yōu)先選擇這個結(jié)果;

test.bp.r_utg.gfa(haplotype-resolved raw unitig graph in GFA format): 保留了所有的單倍型信息,包括體細胞突變和重復(fù)測序錯誤;

*.bin文件:運行時的糾錯和相互比對的結(jié)果;

其它結(jié)果:有的網(wǎng)友還提到了一個結(jié)果,我這次沒有生成:

prefix.a_ctg.gfa(Alternate assembly contig graph):組裝出來的另一套單體型基因組結(jié)果。

對于2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測序的Trio-binning模式,過段時間我再跑。

四.日志信息及參數(shù)調(diào)整

通常使用默認參數(shù)就可以,要根據(jù)日志信息判斷是否需要進行參數(shù)調(diào)整,最主要的日志信息是Kmer圖,從而判斷hifiasm是否能夠正確的找到純合峰,雜合峰的所在位置。如果hifiasm沒有找對純合峰所在的位置,會導(dǎo)致基因組大小不符合預(yù)期,

對于雜合率高的樣本,一個常見的問題是分型的結(jié)果兩套基因組差別較大,需要為-s設(shè)置更小的值(默認值:0.55)。

還有其它參數(shù)引用ref3,xuzhougeng的分享:

如果序列不夠長,片段化明顯,則可以嘗試增加 -D 和 -N, 雖然會增加運行時間,但是會提高重復(fù)區(qū)域的分辨率。如果后續(xù)的Hi-C,或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯誤組裝,則可以適當降低 --purge-max, -s和 -O。或者設(shè)置 -u 關(guān)閉post-join 步驟,hifiasm通過該步驟提高組裝的連續(xù)性。

五.參考:

Ref1:Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm

Ref2: https://zhuanlan.zhihu.com/p/283131167

Ref3:http://www.lxweimin.com/p/6d79690dce5d?ivk_sa=1025883j

Ref4: https://hifiasm.readthedocs.io/en/latest/trio-assembly.html

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,936評論 6 535
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,744評論 3 421
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,879評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,181評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,935評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,325評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,384評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,534評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,084評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,892評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,623評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,322評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,735評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,990評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,800評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,084評論 2 375

推薦閱讀更多精彩內(nèi)容