Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasin...

Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing

doi:https://doi.org/10.1111/tan.13926
閱讀鏈接:https://onlinelibrary.wiley.com/doi/10.1111/tan.13926


摘要

由于該區域的復雜性,HLA 區域內基因的準確快速基因分型存在許多困難。 在這里,我們展示了我們用于 HLA 基因分型的基于納米孔的長讀長聚合酶鏈反應 (PCR) 解決方案的概念驗證結果。 對于 15 個基于 HLA 人類學的樣本和 13 個 NHS 血液和移植衍生樣本,40ng 基因組 DNA 對 I 類和 II 類 HLA 等位基因進行了long-range PCR。 合并的 PCR 產物在 Oxford Nanopore MinIoON R9.4.1 流通池上進行測序。 測序讀數的HLA基因型是用HLA-LA分配的。 將調用的基因型與來自短讀下一代測序、Sanger 序列和/或單點多態性 (SSP) 分型的組合的參考進行比較。 對于一致性,第一、第二、第三和第四字段的準確度分別為 100%、98.4%、97.5% 和 95.1%,到可用的四字段準確度,否則 28 個樣本中的三個字段用于 I 類調用和 17個 II 類調用的樣本。 成功展示了母本和父本等位基因的Phasing,以及基于Phasing的純合子運行鑒定。 檢測運行時間為 8 小時,HLA 分型數據重建時間為 15 分鐘。 化驗成本為 55 英鎊(80 美元)/樣品。 我們開發了一種快速且具有成本效益的long-range PCR 和基于納米孔測序的測定法,可以對HLA區域內的基因進行基因分型,精度高達四個字段,識別 HLA 中的純合子運行,重建母本和父本單倍型,并且可以縮放從多樣本運行到單個樣本。


... 介紹方法等請看原文


結果

數據傳輸

對于NHSBT樣本分型,總共產生了2.7 GBase的測序數據,中位數讀取長度為3377個堿基,讀取長度N50為3606個堿基,讀取質量的中位數為9.4。對于人類學panel樣本分型,總共產生了3.8 GBases的測序數據,中位數讀取長度為3170個堿基,讀取長度N50為3513個堿基,讀取質量的中位數為9.9。兩個面板的運行時間都標準化為8?小時。對于單個FLongle測序樣品,產生了43266個讀數,中位數讀出長度為1080個堿基,總序列輸出為110 Megabases堿基。

工作流程

整個工作流的時間安排如圖S1所示。多重遠程聚合酶鏈式反應耗時150?分鐘,隨后修改的LSK-109方法耗時30?分鐘,隨后在納米孔系統上耗時120?分鐘,以及組裝人類白細胞抗原調用的30?分鐘。項目上的流量單元的產量決定了運行時間。通常,FLongle上的單個樣本運行2?小時(40?mb產量),而minion上12個多路樣品運行50?分鐘(396?mb產量),就可以獲得500倍覆蓋的足夠數據(圖S2)。因此,我們將運行時間設置為2?小時。

I 類和 II 類 HLA 識別準確度

在初步分析中,發現每個擴增子至少需要500倍的覆蓋率才能準確地識別HLA,因此在覆蓋率低的樣本中,這些都需要重新運行。對于第一組NHSBT樣本,11個樣本進行了 I 類等位基因分析(表3)。所有樣本對于第一個領域都是正確的,NHSBT樣本1的參考輸血服務 (BTS) HLA-C等位基因是7,對于MiSeq呼叫是C07:02:01:03 (盡管在BTS分型中給出了C07:123作為第二選項),對于納米孔,它是C*07:123。


表3 NHSBT 實驗中樣本的結果列表。注意:顏色代表匹配的準確性——綠色,所有字段匹配;黃色,第二字段不匹配;紅色,第一個字段不匹配。RunID,內部運行ID;備用 ID,NHSBT 樣本 ID;技術參考:NHSBT 的 MinIon 測序;MinIon,基于納米孔的 HLA 分型;BTS、NHSBT 血清分型衍生的等位基因。 縮寫:NHSBT:NHS血液和移植。

對于第二組 NHSBT 樣本,選擇了一組更具挑戰性的兩個樣本。I 類和 II 類調用的一致性為 100%,錯誤率為 0%。

對于人類學panel,對 15 個樣本進行了 I 類和 II 類等位基因分析(表4)。除樣品 IHW09376 外,所有樣品均完全匹配。對于唯一出現的字段2錯誤,參考調用是 HLA-B*27:05:02,納米孔調用是 HLA-B*27:110。這表示單個核苷酸變化 (G > A),并且可能表示任一方法的測序錯誤。對于 II 類等位基因,所有樣本均匹配,但 IHW09021 除外,其中 HLA-DRB1 的參考是DRB1*03:02:01,MinION 調用是 03:03。對原始數據的檢查表明,這是由納米孔測序中的插入缺失引起的序列比對錯誤。當應用手動校正時,等位基因正確解析。

表4 人類學panel實驗中樣本的結果列表。注: IHW ID,國際組織相容性研討會 ID;技術參考:等位基因由 IHW、MinIon、基于納米孔的 HLA 分型提供。顏色代表匹配的準確性——綠色,所有字段都匹配;黃色,第二場不匹配;紅色,第一個字段不匹配。A = HLA I 類等位基因;B = HLA II 類等位基因 DPA1、DPB1、DQA1、DQB1;C = HLA-DRB3,4,5 等位基因。

FSGS/APOL1 allele calling

為了了解納米孔系統對可能易患臨床相關疾病的單核苷酸多態(SNP)變異的使用,將FSGS的G1和G2風險等位基因添加到混合物中。所有樣本均檢出G1等位基因(rs73885319,chR22:36265860,NC_000022.10:g.36661906A>G和rs60910145,chR22:36265988,nc_000022.10:g.36662034T>G)。在12個樣本中,所有樣本都有A參考等位基因。G2等位基因是一個6堿基(rs71785313,chR22:36266000,NC_000022.10:g.36662046_36662051delTTATAA)缺失。
在12個樣本中,未見內含子。值得注意的是,在APOL1基因SNPs區域的200?堿基內觀察到了幾個常見的小SNP,例如rs1403581130。

R9.4.1 vs R10 pores

作為早期獲取計劃的一部分,該項目被授予新的R10納米孔,以在其上運行人類白細胞抗原分型樣本(圖1)。R10使用與R9數據相同的管道調用,并顯示出顯著更高的單堿基精度。在圖2中,所有三個面板都顯示了R10數據(每個面板的頂部)與R9數據(每個面板的底部)的IGV圖,顯示了顯示的三個HLA基因--HLA-DQB1(頂部)、HLA-DPB1(中間)和高度多態的HLA-DRB5之間的單堿基錯配水平大大降低。
有趣的是,R10和R9之間的原始平均地圖質量(MAPQ)分數相似(49比44),基本MAPQ分數(16.2比15.5)相當于基本錯誤率為2.4%比2.8%。
根據MiniMap2的報告,R10孔的中位比對得分(AS,越高越好)為4,350分,而R9.4.1孔的中位比對分數為722分(Mann-Whitney P?<?.0001,圖3)。
MiniMap2報告的錯配中位數(NM,錯配越少越好),R10孔為51,R9.4.1孔為551(Mann-Whitney P?<?.0001,圖3)。


圖1 HLA-DPB1 基因定相的 IGV 圖。藍條 = 單倍群 1;綠條 = 單倍群 2。堿基不匹配顯示為條內的彩色線條。IGV,集成基因組查看器


圖2 IGV 圖降低了 R9 和 R10 孔之間的讀取精度。頂圖 = HLA-DRB1;中圖 = HLA-DPB1;底圖 = HLA-DRB5。IGV,集成基因組查看器
點擊查看圖2原圖


圖3 log10的小提琴圖和晶須圖:左 A,比較 R9.4.1 孔(藍色)和 R10 孔(紅色)的代表性樣品的對齊分數(越高越好)。右 B,比較 R9.4.1 孔(藍色)和 R10 孔(紅色)的代表性樣品的錯配數(越低越好)

Flongle 設備上的單個樣本調用

為了了解微型納米孔裝置(Flongle 流通池)的輸出是否在 R9.4.1 Flongle 上運行了單個樣品(NHSBT 樣品 27)。數據輸出為 0.9 Gb,對于此樣本的 I 類和 II 類字段,在四個字段級別的準確度為 100%。

HLA-DRB1 中的 HLA 定相和純合性鑒定

鑒定母本和父本對 HLA 等位基因的貢獻對于鑒定純合性運行至關重要,這可能會影響器官匹配,并且難以使用短讀技術檢測。為了展示納米孔長讀長測序對 HLA 定相以及識別純合性運行的能力,選擇了單個樣本(人類學panel樣本 1,IHW09377)進行分析。在使用 FreeBayes 進行變體調用后,使用 WhatsHap 生成了單倍群。對于這個樣本,每個樣本都衍生出兩個單倍群,大概是母系和父系對先證者遺傳 HLA 的貢獻。這可以在 HLA-DRB1 的 IGV 中清楚地看到(圖1) 通過生成單倍群標記的 BAM 文件。在此圖中,可以在不同顏色的讀數(綠色表示單倍群 1,藍色表示單倍群 2)中看到母本和父本等位基因的不同貢獻。每個單倍塊跨越整個擴增子,加強了 HLA 系統的共同顯性遺傳。人類學panel樣本 IHW09377 的目測顯示 HLA-DRB1 是純合子(圖4)。


圖4 IGV 圖顯示 HLA-DRB1 是純合的,由 VCF 等位基因調用圖(表意文字下方的面板)表示,主要由純合(紅色)SNP 和偶爾的雜合(藍色)SNP 組成。IGV,集成基因組查看器

速度和成本效益

與傳統分型(策略)相比,基于納米孔的測定顯示出相當大的基于速度的優勢。DNA 提取需要 1 小時,文庫制備需要 3 小時,測序需要 4 到 20 小時,具體取決于所需的序列數據量。在運行 Ubuntu LTS 18.04 的具有 256 GB 系統內存的 16 核英特爾至強服務器上,生物信息學分析花費了 1 小時,這意味著該測定總共可以在 8 小時內運行,這比 NGS 和 SSP 方法節省了大量時間。在成本效益方面,假設在 MinION 流動槽上匯集 15 個樣本,我們計算出血液 DNA 提取成本為 25 英鎊,遠程 PCR 為 3 英鎊,條形碼和文庫制備為 10 英鎊,流動槽成本為 27.36 英鎊,在不提取 DNA 的情況下,總共花費 38 英鎊。典型的商業 HLA 分型成本從 300 英鎊到 800 英鎊不等(https://azure.microsoft.com/en-gb/pricing/calculator/),這意味著樣本計算成本為 2.87 英鎊/樣本(因為時間是按小時計費的)。


結論

在這項研究中,我們已經證明了在納米孔測序系統上使用long-range PCR和測序技術進行全長人類白細胞抗原配型是非常準確的,比最近的替代方法更便宜,并且對于現場部署使用“手提箱中的實驗室”的方法是可行的。這種方法利用納米孔測序的便攜性,再加上筆記本電腦和便攜式聚合酶鏈式反應設備,以便在資源匱乏的條件下進行人類白細胞抗原分型。

目前的人類白細胞抗原分型方法依賴于高度特異性,但不是廣泛的分析,如SSP分析,這些分析可以對單個等位基因進行排序,但不能提供整個感興趣區域的深入重建。這意味著,對于更罕見的等位基因,盡管SSP提供了準確性,但這是以一種可以用于所有患者的檢測為代價的。長程聚合酶鏈式反應提供的長擴增以前是使用短讀測序進行的,我們的方法與納米孔系統的長讀能力相結合,提供了準確理解人類白細胞抗原區域的獨特能力。

我們使用long-range PCR的優勢在于,整個基因可以包含在一次PCR反應中,從而能夠重建單倍型并準確解析人類白細胞抗原區域的復雜部分。它還需要有限的樣本輸入(通常為50?ng基因組DNA)。缺點是擴增反應的延伸階段需要時間,最長的擴增片段(>10?kb)每個循環需要超過10?分鐘,這意味著典型的用于HLA分型的長距離聚合酶鏈式反應需要長達3?小時。這種方法的優點是可以在資源相對匱乏的環境中實施,從而能夠在中低收入國家使用。在構思時,我們最初的實驗計劃是一種可以用于LMIC的實驗計劃,作為昂貴和緩慢的國外HLA配型的替代方案。一種克服廣泛的long-range PCR擴增缺點的替代方法可能是使用環介導的等溫擴增(LAMP-PCR),這種方法具有快速的優點,但需要大量的引物重新設計。

這個問題的一個潛在解決方案是使用Cas9富集法從基因組DNA樣本中提取人類白細胞抗原區域,然后進行連接反應并使用納米孔設備進行測序。這有多個優點,第一個優點是能夠以公正的方式檢索感興趣的人類白細胞抗原區域。此外,人類白細胞抗原區域的甲基化可以自然地從回收的DNA中取消,因為納米孔系統具有檢測甲基化堿基作為孔內信號變化的固有能力。這將提供理解人類白細胞抗原表達和甲基化之間的關系的能力。CAS9方法的一個缺點是輸入需要相對大量的基因組dna(>3dna g),盡管血液樣本通常會提供這一點,但dna提取必須仔細執行,以便最大限度地恢復?μ片段長度。基于旋轉柱的提取通常可以獲得>20?kb的片段,但對于類似于全長?(2 Mb)的讀數,必須使用更奇異的DNA提取方法,如桑布魯克和羅素方法或脈沖凝膠電泳法。這些方法將大大降低LMIC的可及性,并將限制這種類型的應用僅適用于研究環境。

納米孔系統的另一個潛在好處是平行測序人類白細胞抗原的表達分析,以了解人類白細胞抗原表達對移植結果的影響。在同一檢測方法中,準確的3-4個等位基因的現場分辨以及甲基化和表達數據將極有可能改變我們對該區域在人類白細胞抗原分型中的重要性的理解。有證據表明,II類系統的人類白細胞抗原分型在造血干細胞移植中相當重要,并且人類白細胞抗原的表達對這類移植的結果有影響。

我們用于重建人類白細胞抗原區域的算法(HLA-LA)具有顯著的優勢,因為它使用了人類白細胞抗原等位基因28的群體參考圖來準確地重建高精度的人類白細胞抗原區域。人口參考圖重建的一個問題是,它既需要計算也需要大量的內存,特別是對于長時間讀取的納米孔數據。我們正在與作者合作修改算法,以處理基于納米孔的數據,以便在現場的計算機上重建是可行的。另一種選擇是使用基于云的基礎設施,其中納米孔測序數據從現場上傳,并實時調用人類白細胞抗原類型。這具有集中控制算法和質量保證的優點,但缺點是需要轉移納米孔測序運行的方法(通常為5-6 GB),這在LMIC中可能很難實現。

總之,我們介紹了使用納米孔測序技術對所有 I 類和 II 類等位基因進行四個字段分辨率的方法。它具有成本效益、快速并且與短讀長測序相比具有許多實際優勢,我們建議它可能代表最適合 HLA 分型的未來方法。


long-range PCR:擴增較長的片段,可達30kb

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。