基于Hi-C數據的深層挖掘和多組學聯合分析已經成為了三維基因組領域的重要組成部分。而工欲善其事必先利其器,夯實基礎方能壘砌高臺。染色質構象各個層級的識別和鑒定的準確性會直接影響到后續分析的可靠性。去年年底發表在Nat Method的《Comparison of computational methods for Hi-C data analysis》這篇文章詳細介紹了十三款軟件的優勢和劣勢。
為了更好地理解后面的內容,小編先介紹下Hi-C文庫的原理。細胞核中基因組DNA是一個動態調控的整體,為了能定量地分析染色質在空間上的相互關系,必須將細胞進行固定。甲醛醛基可以是DNA和蛋白中的氨基進行交聯,這一過程將染色質構象特征穩定保持在特定的狀態中;通過限制性內切酶的酶切活性,使得基因組雙鏈DNA剪切成獨立DNA-Protein復合物,即使如此,這個復合物依舊維持在細胞核的原有位置,極少DNA能出核;通過帶有生物素的A或C脫氧核苷酸在DNA聚合酶的作用下可以將DNA末端的限制性內切酶粘性末端補平;再通過DNA連接酶活性,可以將平末端的DNA連接成嵌合分子;隨后通過超聲打斷,末端去除生物素和末端補平和加測序接頭即可完成Hi-C文庫的構建。
由此可知Hi-C的標準文庫是一個嵌合分子(Chimeric,兩側read來源于不同的基因組片段)。
如果直接將Hi-C的文庫拿來比對會發現有效比對率要遠低于RNA-SEQ或ChIP-SEQ等文庫數據,因為在read兩端比對過程中可能存在讀過限制性內切酶連接位點的可能。因此在通常情況下,軟件一般會選用識別酶切位點預先將reads進行處理或在一端無法唯一比對的情況下,識別連接位點進行切割再次比對的算法(Chimeric mapped)。
言歸正傳,在這篇文章中作者分析13種用于分析Hi-C數據的算法,它們分別是用于鑒定染色質互作的軟件(Fit-HiC,GOTHiC,HOMER,HIPPIE,HiCCUPS,diffHic)和用于鑒定TAD的軟件(HiCseg,TADbit,DomainCaller,InsulationScore,Arrowhead,Armatus,TADtree).通過比較發現各種算法之間在鑒定染色質互作中顯著的差異和對TAD識別更多可比較性的結果。作者同時選用了已經發表的9個數據集41個樣品進行分析,這些樣品覆蓋了不同的Hi-C實驗方法,數據分辨率和細胞類型。
一、比較不同軟件在數據比對、過濾的數據產出
Reads 比對。
文章發現相較于Bowtie算法,HIPPIE(采用STAR),HiCCUPS(采用BWA),diffHiC(采用Bowtie2)分別在比對率上提升了18.4%,27.4%,40.1%,同時他們測試利用不同的分析讀長來進行比對,發現利用chimeric的方法相較于全長進行比對的算法,能增加30.9%和55.4%的比對數據。表明chimeric在識別更多嵌合片段上更有優勢。
無效數據過濾。
在進一步經過過濾步驟之后,測試結果表明,HICCUPS能獲取到最多的比對數據,雖然該方法只去除了PCR的重復而沒有將其他潛在的無效數據進行過濾;DiffHiC通常會過濾掉最多的比對reads,值得注意的是由于該軟件在比對過程中,能得到較高的比對率,所以依然能獲得較多的有效reads(表1)。
比較不同的Hi-C實驗方法。發現經過過濾后,in situ HiC能獲取到更多有效的reads。對于簡化的Hi-C方法則經過過濾后得到最少的reads,通過測試數據發現,這主要是由于PCR 重復率過高導致的(圖3c)。
二、染色質相互作用的識別
數據量對鑒定Loop數量影響
研究結果表明,所有方法鑒定得到的順式互作的數量均多于反式互作,隨著有效數據的增加,有效的互作數也隨之增加,雖然每個軟件的增加有所差別;同時發現染色質內的有效互作要高于染色質間的互作;在大部分的數據集中,GOTHiC能獲得最多的染色質內互作;通常情況下,diffHiC軟件能鑒定得到最多的染色質間互作,同時發現有效數據量與順式作用比上反式作用的比例成正比。文章著重提到了HiCCUPS軟件,由于該軟件采用的局部背景模型,通過圖形算法對鄰近的peaks聚集成一個單獨的互作,因此相較于其他的工具,獲得的互作最少(圖4a)。
Loop 的大小
通過對順式互作中染色質內兩個bin進行距離分析發現,GOTHiC鑒定得到的互作具有最小的距離,在5kb分辨率下,Fit-Hi-C得到的互作的平均距離要大于10Mb。在1Mb的分辨率條件下,所有軟件鑒定得到的互作的平均距離分布在10Mb到53Mb(圖4b)。在圖中將互作標注在互作矩陣中,可以直觀地觀測到不同軟件鑒定得到的loop差異(圖5)。
Loop可重現性
為了比較在不同重復中獲得的染色質互作的可重復性,作者選用了Jacard相似系數(兩者交集比上兩者并集)作為一個鑒定互作集合的度量。一般情況下,相同數據集的技術重復或生物學重復在不同的分辨率中均比較低。然而其顯著性要高于隨機組合。在低精度時GOTHiC具有最高的一致性,最可能的原因是在每個樣品重復中它獲得了大量的近距離互作。相反,在幾乎所有的高分辨率數據集中,H****iCCUPS****鑒定得到的****loop****是各重復中最保守的。令人驚訝的是,與順式相互作用(JI<0.03)相比,反式相互作用的相似系數反而更高(JI=0.19)(圖6d)。
僅考慮top 1000順式互作的 JI指標,相較于所有的互作的JI,結果發現除了FitHiC之外, 并沒有顯著改善。相反,當樣本中valid pair reads增加時,可重復性也隨之增加,HiCCUPS和GOTHiC尤為顯著。同時HiCCUPS和GOTHiC軟件得到的loop在使用重復相關系數(一個比較不同數量相互作用魯棒性的相似性度量)來衡量時也呈現最高的重復性(圖7a)。
在比較同一個細胞系中用不同限制性內切酶進行處理的數據集時,可重復性相似,相反對數據集間之間的重復性(如不同數據集中同一細胞系利用不同的實驗方法或酶時),JI系數非常低。
Loop 注釋
為了鑒定這些軟件calling 得到的互作是否與轉錄調控的染色質狀態有關,作者基于互作兩側的端點基于染色質狀態進行分類,在5kb的分辨率考察了所有的方法,發現將近有16%的順式互作被歸類到啟動子-增強子,23%互作是分布在異染色質或沉默狀態的染色質上。同時3%被認為是缺少生物學支撐,如一端是啟動子或增強子,另一側為異染色質或沉默狀態的染色質。
在5kb分辨率下,HiCCUPS和HOMER鑒定得到了最高比例的增強子-啟動子的互作元件,雖然他們不是數量最多的(圖6e)。在40kb分辨率下,所有的方法均鑒定得到較高比例的增強子-啟動子互作,作者認為這可能是較大的劃bin更可能包含啟動子或增強子。相反,對于反式作用的互作比例,歸類為啟動子-增強子在所有的軟件中均較低。
不考慮軟件和分辨率的情況下,少于8%的順式互作被歸類到違背生物學預期的互作中。對于所有的軟件,隨著數據量的增加,啟動子-增強子的占比增加。
Loop 真陽性
當比較鑒定得到的順式作用數據有效性時,GOTHiC獲取了數量最多的真陽性的互作,HOMER和Fit-Hi-C與GOTHiC具有相似的效果,盡管他們鑒定得到的相互作用較少。在高分辨率的數據集中(Rao et,.al),diffHic鑒定的互作具有最高的真陽性比率,雖然在相同的數據條件下HOMER軟件比其他所有的軟件獲得更多的真陽性(圖8)。所有的軟件在鑒定真陰性上性能均不是很好。
三、鑒定拓撲學相關結構域
數據量對鑒定TAD數量的影響
為了進行TAD calling,該項研究用40kb分辨率對所有樣本進行分析,與鑒定互作的軟件不同,除了Arrowhead以外的TAD 的工具在鑒定TAD時,valid pair數量的增加對TAD的個數影響不大(圖9a)。
TAD數量
不同的軟件得到的數量不等,在所有數據集中,TADtree軟件得到最多的TAD(7638),而Arrowhead識別的最少(636)。相反地,在1Mb分辨率時,InsulationScore能獲得最多的TAD。將TAD標記在熱圖中,可以明顯發現HiCseg,TADbit,InsulationScore獲得的TAD是連續的,而其他的幾款軟件則TAD之間有間隔。Arrowhead 和TADtree采用多尺度的方式返回嵌套的TAD。
TAD 可重現性
為了比較TAD的可重現性,作者計算了JI作為不同生物學重復間的TAD邊界重疊的評價指標。在所有的分辨率下, HiCseg在同一數據集的不同重復中具有最高的可重現性,通常情況下,TAD的可重現性要遠高于我們觀測到的染色質互作的可重現性(圖10)。剛提到測序有效數據的增加不會影響TAD的個數,但是它可以提高所有的TAD鑒定軟件在識別不同生物學重復TAD中的可重現性。HiCseg鑒定的TAD在使用重疊相關系數時比其他工具更好。
對于相同細胞系而使用不同的限制性內切酶時,用大多數工具得到的重復性是相似的。另外,在不同數據集(同一細胞系不同的實驗方案和酶時)大部分軟件得到的可重現性要低于同一數據集的結果。TADtree在測試中表現的最好,而Arrowhead表現最差(圖11)。
TAD 注釋
所有軟件鑒定得到的TAD在其邊界具有絕緣子(CTCF或者BEAF32)的富集。在絕大部分的數據集中超過50%TAD邊界都與CTCF的peak重疊。其中Armatus 和 TADtree 獲得的TAD邊界CTCF的富集尤為明顯(圖12)。
在Sexton數據集中,大多數軟件返回的TAD的邊界富集了BEAF32,一個在果蠅中被報道的比CTCF更廣泛富集與TAD邊界的結構蛋白。
當使用模擬數據時,DomainCaller,TADbit 和InsulationScore鑒定得到TAD個數與模擬的數相似,且與噪音的增加無關,而HiCseg則鑒定得到少些的范圍比較大的TAD,而TADtree則得到更多小的TAD。這兩種方法在鑒定正確結構上強烈受到噪音的影響。TADbit和Armatus在重現TAD邊界上具有最高的敏感度,盡管TADbit在所有噪音水平上表現的更高精度(圖13a)。這一結論同樣適用于在模擬嵌套TAD的層次結構時,只不過TADtree被專門設計用于識別嵌套結構域,因此在嵌套TAD的情況中可能會更好些。
四、結論
在討論部分,作者認為,沒有一種算法可被用于作為識別染色質相互作用的金標準。獨立于數據分辨率,方法的選擇會影響交互數據及其特征。
loop calling方面
同一數據中一個技術重復鑒定的loop很難在其他技術重復中重現。而這可能與細胞的異質性決定的。而在高精度的數據中,HiCCUPS具有最高的保守性,在低精度數據中GOTHiC具有最高的可重現性。
即使受限于可重現性,所有方法鑒定得到的loop依然是有意義可比較的。loop富集了具有統計學意義的啟動子-增強子互作,而只有極少部分的loop是聚類到無法用生物學概念解釋的那部分。
valid pair 數據量增加能增加loop的可重現性和鑒定的loop的數量。
HOMER和HiCCUPS則能獲得更高比例的具有生物學意義的互作,雖然 HiCCUPS的識別潛力僅在非常高分辨率的數據集分析中才能發揮的淋漓盡致。
TAD calling 方面
盡管沒有一種單獨的方法在所有境遇中技壓群雄,TAD工具在方法學上較互作的工具要成熟的多,在所有的TAD 識別工具中,TADbit,Armatus和TADtree在實驗和模擬數據中的大多數分辨率條件下具有穩定的表現。
在實際數據中HiCseg軟件具有最高的可重現性,但是在模擬數據中隨著噪音增加,其性能顯著下降。
不同軟件calling得到的TAD邊界均有結構蛋白的富集。
文章提到在實際數據和模擬的數據中,調和兩個之間的差異是很困難的,特別是針對互作的鑒定軟件,這可能是由于設計具有預定義特征的HiC數據集的策略復雜性導致的。雖然在對于聚合物折疊建模的生物物理學中具有幾種有前景的建模方法,但迄今還未提出任何算法可完全模擬Hi-C數據中的真實分布和偏好性。合成數據的易用性對于合理調整任何算法參數而言都是必不可少的,因此這限制了在選擇固有的啟發式算法時的最佳選擇。
參考文獻
Forcato M, Nicoletti C, Pal K, et al. Comparison of computational methods for Hi-C data analysis[J]. Nature Methods, 2017, 14(7):679.