pubmed:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7606350
doi: 10.1016/j.humimm.2020.04.009
摘要
下一代測序技術(NGS)已被廣泛用于臨床HLA分型和高級免疫遺傳學研究。目前的方法在解決涉及遠處變異位置的順式-反式歧義方面仍面臨挑戰,而且周轉時間受測試量和批次的影響。納米孔測序可能成為現有HLA分型選擇的一個有希望的補充。牛津納米孔技術公司(ONT)的MinION測序儀提供的技術可以記錄DNA/RNA鏈通過跨膜孔轉移時的離子電流變化,并將信號轉化為序列讀數。它的特點是庫的制備簡單靈活,測序讀數長,測序設備便攜且價格低廉,測序速度快,實時性強。然而,測序讀數的錯誤率很高,仍然是其廣泛應用的一個障礙。這篇評論文章將簡要介紹這項技術,然后重點討論利用納米孔測序技術進行高分辨率HLA分型和免疫遺傳學研究的機會和挑戰。
關鍵詞: 納米孔測序,下一代測序,人類白細胞抗原,共識序列,測序錯誤
太長不看版:
二代測序用于HLA分型
優勢
- 克服PCR drop問題
- 解決等位基因不平衡的局限
劣勢
不能很好地解決遠距離突變phasing時順反歧義問題
三代測序用于HLA分型
優勢
- 文庫制備簡單靈活(無需酶打斷,即使是GC含量高的區域也能均勻覆蓋)
- 測序讀數長
- 設備便攜
- 價格低廉
- 能夠解決遠距離突變phasing時順反歧義問題
劣勢
- 測序讀數錯誤率高
- 同聚物錯誤(R10.3/10.4 nanopore可能提高均聚物的分辨率)
介紹
近年來,下一代測序(NGS)技術已經徹底改變了高分辨率的HLA分型。許多臨床實驗室已經迅速采用這些技術,以商業化的檢測方法或真正的實驗室開發的檢測方法的形式對病人和供體進行HLA分型。兩種類型的平臺促成了HLA分型方法的轉變:1)產生數百個堿基的短測序讀數的平臺,如羅氏454、Illumina和Ion Torrent,以及 2)產生數千個或更多堿基的長讀數的PacBio平臺。其結果是很好的縮短了周轉時間,減少了模糊性,提高了吞吐量,以及更有成效的供體搜索結果。這些技術的實施也使免疫遺傳學研究領域充滿了活力,為最近的國際HLA和免疫遺傳學研討會提供了動力,并擴大了現有的HLA參考數據庫。
然而,生物技術的創新從未停止。(科學家)正在開發不依賴于基于 PCR 的目標富集的替代 HLA 分型策略,例如 HLA 基因的混合捕獲,然后是 NGS,以克服 PCR 丟失和等位基因不平衡的局限性(例如,來自布里斯班 CareDx 的 AlloSeq?Tx 17, 加利福尼亞州)。 新穎而強大的生物信息學工具不斷涌現,可使用來自全基因組測序 (WGS)、全外顯子組測序和 RNA 測序的數據推斷 HLA 分型。 此外,(地球上)總會出現可能會產生重大影響的下一個小工具。
在這里,我們對納米孔測序進行了簡要回顧,重點關注其對 HLA 分型和免疫遺傳學研究的潛在益處。 納米孔測序的原型由 Branton、Church、Deamer 及其同事于 1990 年代初在他們的學術實驗室中率先提出。 第一個商用納米孔測序設備MinION于2014年由 Oxford Nanopore Technologies (ONT) 發布,此后已成功被獨立實驗室用于各種測序應用。
MinION設備的剖析及其工作原理
MinION設備上的納米孔測序是由跨膜蛋白通道完成的,其納米級的孔徑剛好夠單鏈核酸聚合物通過。該孔位于一個抗電膜上,該膜將兩個電壓偏向的隔間分開。在單鏈DNA通過孔隙的轉移過程中,離子電流的變化可以被傳感器連續記錄。這些信號隨后被分割成離散的事件,并通過計算破譯成占據孔隙的核苷酸序列的變化。單鏈RNA也可以直接進行測序。化學的另一個關鍵組成部分是一種螺旋酶,或運動蛋白,它能解開雙鏈DNA并將單鏈DNA拉過孔。這種可控的、類似棘輪的過程增加了信噪比,允許以單堿基的分辨率辨別核苷酸。
單條DNA鏈通過孔隙的平均轉換速度為每秒450個堿基,這意味著對I類HLA基因的全基因擴增子(約4kb)進行測序的時間不到10秒。一旦一條DNA鏈被完全轉移,同一個孔將立即可以對下一條進行測序。共有512個活性通道,每個通道由各自支架內的四組納米孔組成,被嵌入一個MinION流動池。通過對依次通過流動池上數百個活性孔的DNA分子進行測序,可以實現高通量。流動池上的測序通道陣列安裝在一個傳感陣列和一個特定應用集成電路(ASIC)的頂部,后者通過連接器引腳與MinION的底座相連。整個MinION設備,包括流動池和底座,重約100克,可以裝入一個普通大小的口袋。
根據所使用的文庫制備試劑盒,從輸入DNA樣品到測序數據的工作流程需要幾分鐘到幾小時。對于基于擴增子的文庫,PCR擴增子通常被純化和末端修復,然后在測序前連接到一個測序適配器上(圖1A,右圖)。Y型適配器的一條鏈和另一條鏈上的運動蛋白相關聯,這使得文庫片段可以被吸附到孔中并通過孔隙棘輪。將文庫加載到流動池后,一臺筆記本電腦或臺式電腦通過USB端口與MinION設備連接,在測序過程中為MinION供電并控制它。分段的序列事件("斜線"),或原始的離子電流信號,然后用神經網絡算法進行基礎調用,并將其分成高質量(通過)或低質量(失敗)的讀數,供下游分析。
HLA分型技術的差距。(A)傳統NGS(Illumina和Ion-torrent平臺的商業檢測)和納米孔測序的工作流程比較。如果不進行復用,MinION可以選擇等克分子進行pooling。(B) HLA-B基因座的部分覆蓋圖。使用基于酶的片段制備的文庫可以產生不均勻的覆蓋模式。在受影響的樣本中,關鍵外顯子的覆蓋率可能很低(紅框),導致錯誤或不明確(i)。相反,納米孔讀數覆蓋整個基因,沒有明顯的變化(ii)。面板(i)和(iii)改編自參考文獻;面板(ii)是在作者的研究實驗室產生的。
納米孔測序的優缺點
納米孔測序是唯一不依賴于聚合酶催化的 DNA 合成的 NGS 技術。幾個有吸引力的特性使該技術成為廣泛臨床和研究應用的有前途的選擇。首先,快速靈活的文庫制備方案可以有效縮短從樣本到數據的時間。其次,納米孔測序可以產生數千到數百萬個堿基的極長讀數,這僅受文庫中 DNA 片段大小的限制。對于基因組學分析,這些長讀適合phasing distant variants和interrogating結構變異和低復雜性區域,這一直是短讀長測序平臺的弱點。第三,MinION 的價格實惠,目前兩個流動槽和一個測序試劑盒 (MinION Starter Pack) 的價格低至 1000 美元,使用戶無需大量資本投資即可獲得 NGS。第四,MinION 是一種便攜式設備,能夠在不受傳統空間和時間限制的情況下提供 NGS。在埃博拉病毒病流行期間,它被運送到西非以對病毒基因組進行測序以實時監測疫情。最后,納米孔測序不僅可以區分常規 DNA 堿基,還可以區分 RNA 中的尿嘧啶和具有表觀遺傳修飾(例如甲基化)的核堿基,這種獨特的能力正在引領基因組學研究進入 RNA 和基因組 DNA 分子直接測序的未知領域。
納米孔測序的上述特點可以潛在地解決HLA分型和免疫遺傳學研究領域的一些未滿足的需求,這一點將在以下章節中概述。另一方面,根據最近的報告,納米孔測序讀數的錯誤率約為10-15%,仍然明顯高于短讀測序平臺。納米孔讀數的錯誤率受測序化學和尋基算法的影響,Rang及其同事最近發表的一篇優秀文章對此進行了評論。鑒于HLA基因的復雜性,以及密集的單核苷酸變體(SNVs)和偶爾的差異點,納米孔測序在HLA分型中的成功將取決于讀數準確性的持續改善和開發強大的生物信息學工具來克服任何持續存在的錯誤。
用于 HLA 分型的納米孔測序
最近的一些出版物報道了納米孔測序用于HLA分型的一些早期嘗試。這些研究大多通過長范圍(片段)PCR富集目標HLA基因,并使用各種文庫制備方法和納米孔測序化學方法對擴增子進行測序,所有這些都是在該技術本身快速發展的情況下進行。商業軟件和學術生物信息學工具都被用來確定HLA分型,結果令人鼓舞(表1))。
使用納米孔測序數據進行 HLA 分型的最新出版物
高效進行文庫制備
在Illumina和Ion Torrent平臺上進行測序的文庫準備通常需要對目標HLA基因的PCR擴增子進行基于酶的破碎。在分析過程中,數百個堿基的重疊、短測序讀數被疊在一起,以確定樣品中存在的HLA等位基因。這種 "散彈槍 "方法通常需要一個由許多步驟組成的漫長過程(圖1A,左側面板)。在擴增和文庫制備過程中,GC含量高的區域也可能被引入偏見,導致對關鍵外顯子的覆蓋不足(圖1B)。這個問題可能與協議有關,并已被證明在某些協議下會導致幾個HLA基因的模糊性或分型錯誤,但在同一實驗室報告的其他協議下卻沒有那么明顯的問題。通過每個基因座產生更多的測序讀數來增加可用于分析的數據可能會減輕這種風險,但要以效率為代價。另外,在最初的PCR反應中加入了額外的引物,以便在某些檢測中進一步富集關鍵外顯子,以補償文庫制備過程中的負偏差。
相比之下,MinION可以對跨越整個HLA基因的長程擴增子進行測序,而不需要進行片段化處理。納米孔測序也不需要在Illumina流動池或Ion Torrent平臺的離子球顆粒上進行克隆擴增。因此,納米孔測序的文庫制備可以被大大簡化(圖1A,右圖)。可以通過兩種主要策略將條形碼添加到長程擴增子中。首先,四聚體PCR可以使用具有5'適配器序列的HLA特異性內引物擴增目標基因,然后使用具有重疊適配器序列和獨特條形碼序列的外引物進行第二次擴增。其次,條形碼片段可以直接連接到長(范圍)擴增子上。接下來,帶有馬達蛋白和系帶的測序適配器可以通過結扎的方式加入到DNA雙鏈上,或者通過專有的快速連接反應在一分鐘內完成。完成這些程序的動手時間通常為1-2小時。由于納米孔方法消除了基于酶的斷裂所固有的偏差,可以實現對整個目標基因的均勻覆蓋,包括具有高GC含量的區域(圖1B)。
過去有一種選擇是對雙鏈分子的兩條鏈進行測序,這些雙鏈分子的一端由發夾連接物連接;另一端與運動蛋白和系帶連接到一個Y型測序適配器上。模板讀數和連接的互補讀數通過成對比對結合,生成所謂的2D讀數。這種文庫制備方案已不再可用。取而代之的是,可以通過在雙聯DNA的兩端加入Y形適配體并對兩條鏈進行獨立測序來產生1D讀數。這些讀數的錯誤率比2D讀數高,但1D方法提高了文庫制備的效率和測序的產量。最近的幾項研究已經證明了使用1D讀數進行準確HLA分型的可行性。另一種被稱為1D2的方法允許對雙聯分子的模板和互補鏈進行順序測序,而不需要用發夾將它們物理連接起來。這種方法也能提高讀數的準確性,但還不能與擴增子測序兼容。
為了提高納米孔測序讀數的準確性,Li及其同事開發了一種叫做INC-seq(分子內連接的納米孔共識測序)的文庫制備方法。雙鏈DNA分子被自我連接以形成環狀DNA分子,然后進行滾圓擴增。擴增子在MinION上進行測序,產生具有重復單元的序列。基于相同來源的重復單元的共識序列顯示出超過97%的中位精度,允許在物種水平上進行精確的基于16S rRNA的細菌分析。據我們所知,INC-seq在HLA分型中的應用還沒有報道。INC-seq類似于PacBio平臺上的單分子實時(SMRT)測序,其中雙鏈DNA分子被轉化為單鏈環狀DNA,在圓周上反復測序。產生多個相同來源的子讀數,并可將其結合起來,為HLA分型創造高度準確的共識讀數。
用于改進單倍型相位的長讀數
盡管短線程測序平臺上的NGS減少了涉及相距數百個堿基的變體的順反歧義,但短線程測序讀數對相距更遠的變體的能力是有限的。在我們最近對Ion Torrent S5儀器上用于兩場分辨率HLA分型的商業測定的評估中,我們在1685個基因型中的26個(1.5%)遇到了跨不同外顯子的順反性模糊,主要影響HLA-A、HLA-B、HLA-DPB1和HLA-DQB1位點。大多數模糊的基因型包括一個或兩個罕見的等位基因,可以用NMDP代碼報告,這種限制可能不是我們評估的方法或測序儀所特有的。對于Illumina測序文庫,盡管讀數長度較短,但用對端測序的方式加入較長的片段可以在一定程度上改善遠處變異體的相位。
納米孔測序的長讀數可以很容易地phasing相距較遠的變異位置。一個例子是基因型DQB1*06:03和DQB1*06:04與替代基因型DQB1*06:39和DQB1*06:41。由于橫跨第2外顯子和第3外顯子的順反不明確,這兩種基因型無法用Ion Torrent的短讀數區分。測序讀數必須連接兩個相距2668個堿基的變體位置,才能解決這個模糊問題(圖2)。來自Illumina平臺的成對讀數可能也不能解決這些基因型,因為缺乏恰好跨越這些變體位置的文庫片段。我們對DQB1的全基因擴增子進行了納米孔測序,產生了平均長度為6654個堿基的測序讀數,這些讀數明確地支持在我們測試的一個樣品中分配DQB106:03和DQB106:04(圖2)。
圖2 用納米孔測序的長讀數解決順式-逆式的模糊性。DQB1的全長擴增子測序的讀數與基因型DQB1*06:03:01:01和DQB1*06:04:01:01完全一致,覆蓋范圍均勻,但與替代基因型DQB1*06:39和DQB1*06:41不一致。順式-反式的模糊性涉及到外顯子2和外顯子3的兩個變體位置,這兩個位置相距2668個堿基,Ion Torrent測序沒有解決這個模糊性問題。fold coverage顯示在每個覆蓋率圖的左上角。
經濟實惠、可擴展且便攜的HLA分型
上述文庫制備和變異定向方面的優勢并不是納米孔測序獨有的,因為PacBio平臺也取得了類似的進展。然而,PacBio測序儀需要大量的資本投資和實驗室空間,而納米孔測序則消除了這種要求,使資源有限的小型HLA實驗室能夠獲得NGS。如果納米孔測序開始滲透到發展中國家的分子測試和HLA分型市場,這將不足為奇。
納米孔測序的multiplexing能力和可擴展性也影響了該平臺上HLA配型的成本。一臺MinION設備在優化條件下每次運行可產生高達50Gb的數據(https://nanoporetech.com)。這一數據產量在理論上可以為11個HLA基因提供2000倍的覆蓋率,在一次運行中大約有50個樣本multiplex,即使將運行時間縮短一半至24小時,并排除不能被基線調用的低質量讀數(約50%)。目前,使用ONT公司的PCR Barcoding試劑盒可以索引多達96個樣本。上述的數據輸出和multiplex能力可能適合大多數醫院HLA實驗室的需要。但如果需要更高的吞吐量,該平臺可以通過GridION和PromethION設備進行擴展,每個設備可以分別產生250Gb和5.2Tb的數據。
(24小時11個HLA基因,2000X覆蓋,50個樣本,共50G數據)
在另一個方向,納米孔測序也可以用Flongle來縮小規模,這是一個有126個通道(相對于MinION的512個)的較小的流動池,與一個可重復使用的適配器一起使用。幾乎與測序通道數量的減少成正比,Flongle的價格大約是MinION流動池的四分之一。每個流動池的價格不到100美元,每次運行時Flongle可以產生高達2Gb的數據。當對擴增子進行測序時,我們每次運行經常獲得0.2-1.6Gb的數據,這取決于有多少庫被加載到流動池上。更具未來感的是流水線上的SmidgION,它可能是最小的測序設備,可以插入智能手機進行測序。有了這些更小、更便宜的流式細胞,在小批量的樣本上進行HLA分型的NGS,或在完全不分批的單一樣本上進行NGS,將是負擔得起的。De Santis及其同事使用Flongle流式細胞成功實現了11個HLA基因座的單樣本分型。這種前所未有的靈活性將使測試量小的實驗室以及需要選擇緊急高分辨率HLA分型的大型實驗室受益。
快速、實時的 HLA 分型
納米孔測序不需要像Illumina或Ion Torrent平臺那樣用固定的測序時間來完成預定的周期數。相反,測序讀數可以實時生成和調用基數,然后進行下游數據分析。這些特點使得通過測序快速進行HLA分型成為可能,因為需要多少時間來產生足夠的讀數覆蓋率以滿足預期的應用。我們觀察到,在MinION R9.4流動池上測序的半小時內可以產生覆蓋全長I類基因的數千條長讀數,并且可以利用這些數據確定準確的HLA分型(圖3)。考慮到整個HLA分型過程,包括DNA提取(約1小時)、PCR富集目標(約3小時)、ONT文庫制備(約2小時)、納米孔測序(約0.5-1.5小時)和數據分析(約0.5小時),在ONT平臺上開發一種檢測方法,在幾小時內通過NGS完成高分辨率的HLA分型變得現實。話雖如此,不同的測序速度可能會有很大的不同(圖3,比較左、右圖),為了實現可預測的數據輸出,流程的標準化將是必要的。
在MinION上對I類HLA基因進行快速測序。使用R9.4 MinION流式細胞對樣本1(左圖)和樣本2(右圖)的三個I類HLA基因的全基因擴增子1D庫進行了兩次獨立的測序。高質量測序讀數的數量(右軸)和基于關鍵外顯子的分型結果的準確性(左軸)隨時間變化而變化。兩個樣本的共識序列在15分鐘內與參考等位基因(外顯子2和3)的序列完全匹配。在1、5和10分鐘內,樣本1的共識序列和參考序列之間的錯配總數為1、1和1,樣本2為4、4和1。
此外,在多重測序分析中,每個樣本和每個位點的目標測序讀數數量可能會因PCR試劑和文庫匯集過程的精度而有很大差異。 確保所有目標基因和樣本的平衡表示以最大限度地提高基于NGS的HLA分型的多重能力至關重要。 雖然引物組合的優化和過程標準化至關重要,但目標擴增子的平衡測序有可能通過Loose及其同事開發的實時選擇性測序在ONT平臺上實現。 該過程是通過開源“Read Until”軟件實現的,該軟件將離子電流追蹤(分段的順序事件或“波浪形”數據)與波浪形空間中的參考序列實時匹配。 如果為前250個“事件”識別出正確的匹配,則擴增子被視為來自目標區域,并將被選擇性地排序,直到達到預先指定的目標(例如,特定的覆蓋深度)。 來自脫靶區域的擴增子被相應孔隙中的電壓反轉所拒絕。 來自已被充分覆蓋的目標區域的擴增子也被拒絕。 該方法有效地優先排序多個目標區域并標準化它們的覆蓋率,這將有利于多個HLA基因的基于擴增子的分型設置。 盡管該方法似乎對計算要求很高,但它有可能針對更廣泛的應用進行優化。
生物信息學
使用長而嘈雜的納米孔測序讀數進行 HLA 分型需要生物信息學解決方案,不同于那些為從 Illumina 和 Ion Torrent 平臺獲得更短但更準確的讀數而設計的解決方案。最近發表了一篇關于使用 NGS 數據進行 HLA 分型的生物信息學的優秀而全面的評論。本節將重點介紹使用納米孔讀取進行 HLA 分型的生物信息學方法。
第一次嘗試通過早期版本的 MinION(R7.3 流動槽)上的擴增子測序對 HLA-A 和 -B 基因進行分型,但沒有成功,四個等位基因中有四個被錯誤分配。結果可以用早期納米孔讀取的高錯誤率和當時缺乏定制的生物信息學工具來解釋。GATK HLACaller 最初是為 454 平臺的短讀取而設計的,在本研究中用于分配 HLA 等位基因,結果證明該算法與容易出錯的納米孔讀取不兼容。隨著測序化學和堿基識別方法的不斷改進,使用遞歸神經網絡算法進行堿基識別,R9.4/R9.5 流動槽的 1D reads 的讀取錯誤率一直徘徊在 85-90% 左右。隨后使用這些噪聲讀數進行 HLA 分型的努力探索了如下概述的三種主要策略:1) 一致等位基因匹配,2) 基于圖形對齊的等位基因分配,以及 3) 等位基因特異性讀數聚類和分層評分。
在足夠覆蓋的情況下,共識序列可以有效地糾正單個納米孔讀數中的隨機錯誤。使用 Canu、Freebayes、Nanocorrect 和 Racon 等工具,單獨使用納米孔讀取對同源單倍體樣品生成了高質量的共有序列。例如,Loman 及其同事開發了 Nanocorrect 以從頭組裝大腸桿菌 K-12 MG1655 基因組,并開發了 Nanopolish 以使用波形(信號級)數據改進組裝。該方法以約 29 倍的理論覆蓋率實現了 99.5% 的核苷酸同一性,展示了克服讀取級噪音的潛在途徑。對于通過 MinION 上的擴增子測序進行的基于一致性的 HLA 分型,我們開發了 Athlon 管道,首先通過兩個過程在 I 類 HLA 位點識別一個(純合)或兩個(雜合)候選等位基因:1)讀取映射到集合IMGT/HLA 數據庫中的已知參考序列,以及 2) 比較抗原和等位基因水平的總讀取深度。接下來,使用 Freebayes用于重新排列到每個候選等位基因的讀數。最后,將共有序列與 IMGT/HLA 數據庫進行比較,并選擇最匹配的等位基因進行最終分配。這項概念驗證研究考慮了編碼抗原識別域 (ARD) 的外顯子 2 和 3。在此分辨率下,Athlon 使用來自 R9.4 流動槽的2D讀數或1D讀數實現了 100% 的準確度。盡管結果令人鼓舞,但如降采樣分析所示,需要相對較高的覆蓋率(每個位點≥ 1000 個 1D 讀數)。除了 2-field 級別的分型分辨率限制(僅考慮管道的關鍵外顯子),Athlon 可能容易受到等位基因丟失的影響,具體取決于文庫中的等位基因平衡,并且在發表時無法處理 II 類 HLA 分型。即使在納米孔讀取的共識序列和基本事實之間的同一性接近99.9% ,對于典型的 I 類等位基因(全長約 4,000 個堿基)的共識中可能存在大約 4 個錯誤堿基,這將使最終等位基因分配。當 Athlon 將分析限制在總長度小于 600 個堿基的關鍵外顯子時,這種效果可能不明顯。如果這些殘留誤差代表納米孔測序化學或堿基調用方法固有的系統誤差,則可能難以完全消除。
圖比對策略不是將測序讀數映射到參考序列集合,而是識別測序讀數和群體參考圖 (PRG) 之間的線性比對,該參考圖將已知參考序列組合到目標基因內變異的生成模型中。對于最終 HLA 類型的推斷,對所有比對進行評分,并報告 G 組分辨率下最可能的潛在等位基因對。該策略最初作為 HLA*PRG 實施,用于來自 Illumina 平臺的全基因組測序 (WGS) 數據,并在分析的 158 個等位基因中實現了 99.4% 的準確率。HLA*PRG 的一個警告是其高計算要求。一個改進的實現,HLA*LA,允許通過逐步過程優化投影在 PRG 上的線性對齊,包括對齊檢查、拋光和擴展。HLA*LA支持分析更多樣化的NGS數據類型。與來自 Illumina 平臺的外顯子組和低覆蓋率 WGS 數據相比,HLA*LA 與其他變異感知比對方法(包括 HLA*PRG、Kourami 和 xHLA 相比顯示出同等或更高的準確性)。重要的是,HLA*LA 是唯一一個基于圖形對齊的程序,已被證明可以成功分析來自 PacBio 和納米孔平臺的noisy long reads,目標測序數據的準確度范圍為 95% 到 100%。如果使用額外的納米孔測序數據進行驗證,圖形對齊方法可以為 G 組分辨率下的 HLA 分型提供一個極好的選擇。
Klasberg 及其同事最近報道了用于基于擴增子的 HLA 分型的 nanotyper 管道,其特點是讀取聚類和分層評分。使用這種方法,納米孔reads首先被映射到目標基因的通用參考,然后聚集到等位基因特異性reads集中。聚類是基于多態性位置實施的,這些多態性位置具有相位信息并且不太可能是測序偽影。接下來,每個等位基因特異性組中的讀數用于創建多序列比對,最終基因型由分級評分確定,分級評分優先考慮關鍵外顯子,然后是非關鍵外顯子,然后是非編碼序列。作者確定了 94 個樣本中的 4 字段 HLA 分型,這些樣本以 Illumina 和 PacBio 測序生成的基因型為基準。I 類基因的一致性率為 99.4–100%,HLA-DQB1 的一致性率為 95%,其中 60% 的結果是明確的。確定了兩個主要的歧義來源,一個是 3'-UTR 的不完整覆蓋,另一個是由于未能區分不同長度的均聚物軌道。隨著該方法的不斷成熟,特別是對于所有相關的 II 類位點,納米孔測序可能成為超高分辨率 HLA 分型的有力競爭者。
除了上述學術生物信息學工具,一些商業軟件如 SeqPilot(JSI medical systems GmbH,德國)和 NGSengine(GenDx,烏得勒支,荷蘭)也被用于分析納米孔測序數據以進行 HLA 分型,并取得了可喜的結果。 然而,均聚物錯誤將繼續成為該應用中的主要挑戰,因為擴展的均聚物軌道(> 5 聚體)通過納米孔的易位不會引起離子電流信號的變化; 由于易位速度不均勻,無法可靠地推斷出均聚物區域內的堿基數量。 一種折衷方案是在等位基因分配期間將這些困難區域排除在決策制定之外,尤其是當它們位于內含子中時,并接受增加的歧義。 納米孔讀數相對較高的錯誤率和同聚物問題也使得確定現有數據庫中不存在的新等位基因的存在具有挑戰性。 結合來自納米孔測序和其他方法的數據的混合共識方法在這種情況下可能有用,可以同時實現出色的定相和準確性。 為了最終根除問題,納米孔設計和堿基識別方法的創新將是必要的。最新的 R10.3 納米孔具有更長的通道,具有相互分離的雙識別位點,以提高均聚物軌道的分辨率。 這一新發展的全面驗證和整合可能會提高納米孔測序的性能,并在不久的將來使該技術有資格用于臨床 HLA 分型。
結論和未來方向
納米孔測序是一項獨特的技術,它通過獨立于核酸合成的化學方法對 DNA/RNA 鏈進行測序。它有可能提供快速、便攜且廉價的高分辨率 HLA 分型,并且沒有順反歧義。文庫制備過程簡單靈活,為創新提供了沃土。納米孔讀取的長度僅受文庫片段長度的限制,文庫片段可以跨越整個 HLA 基因和轉錄本。該技術還具有直接檢測表觀遺傳修飾的能力,這是一個了不起的突破,可能會導致免疫遺傳學研究的新發現。
納米孔測序在臨床分子檢測和HLA分型中廣泛應用的最大障礙是測序reads的高錯誤率。通過納米孔測序進行 HLA 分型的累積樣本量在文獻中仍然很小,與其他 NGS 平臺測序的樣本數量相比相形見絀 4 , [6]]. 此外,現有 NGS 平臺的出色性能提高了我們對以近乎完美的準確性進行全基因表征的期望。納米孔測序必須滿足現有 NGS 平臺制定的高標準,才有資格進行臨床 HLA 分型。為了實現這一目標,需要新穎的生物信息學工具和經過驗證的商業軟件包來從嘈雜的納米孔讀數中生成準確的分型結果。并且,隨著納米孔設計和堿基識別方法的不斷改進,納米孔測序可能會在不久的將來實現為 HLA 分型和免疫遺傳學研究提供強大且多功能的平臺的承諾。
phasing distant variants:phasing可以認為是變異定向、基因定相、基因分型、單倍體分型、單倍體構建等國車過,指二代測序無法較好地將來自同一親本的SNP連接起來,在這里三代測序能夠較好地克服這個問題。
cis-trans ambiguity:DNA-based typing of HLA alleles occasionally results in the inability to assign a specific allele because of ambiguity in associating two or more polymorphisms to the same or to alternate homologs (cis/trans ambiguity). 相對同一染色體或DNA分子而言為“順式”(cis);對不同染色體或DNA分子而言為“反式”(trans)(來自百度百科詞條:順式作用元件)。其它參考https://www.gendx.com/SBTengine/Help_220/hs290.htm
G group resolution:G 組分辨率決定編碼肽結合凹槽的外顯子序列,即 I 類和 II 類基因的外顯子2和3。
homopolymer error:Homopolymers are stretches of mono nucleotides (DNA bases) greater than two bases long which occur together. So for instance, 'ATCCCCGC' has a homopolymer of length 4 (base 'C'). These stretches are quite infamous for being sources of errors while sequencing DNA. 參考https://medium.com/@sanatmishra1/homopolymers-repeats-errror-eror-error-137d69031f30
關于1D/2D/1D2
Oxford Nanopore Technologies 開發的 1D、2D 和 1D2測序方法的示意圖。 使用一維化學時,只有模板鏈(藍色)被運動蛋白(綠色)穿線。 互補鏈(紅色)被丟棄并測序。 當使用 2D 化學時,模板和補體都被測序,因為它們通過發夾(黃色)連接在一起。 1D2化學也允許對兩條鏈進行測序,但不是連接兩條鏈,而是在對模板進行測序時將互補鏈拴在膜上。 隨后,互補鏈被吸入,系繩被拉松。