TAC-seq: targeted DNA and RNA sequencing for precise biomarker molecule counting
題目:TAC-seq:用于精準生物標志物分子計數的靶向 DNA 和 RNA 測序技術
作者及單位:
Hindrek Teder& Kaarel Krjut?kov
Kaarel Krjut?kov
- Competence Centre on Health Technologies, Tartu, Estonia
- Department of Biosciences and Nutrition, Karolinska Institutet, Huddinge, Sweden
- Research Program of Molecular Neurology, Research Programs Unit, University of Helsinki, and Folkh?lsan Institute of Genetics, Helsinki, Finland
發表雜志及時間:
npj Genomic Medicinevolume 3, Article number: 34 (2018) Published: 18 December 2018
摘要
Targeted next-generation sequencing (NGS) methods have become essential in medical research and diagnostics. In addition to NGS sensitivity and high-throughput capacity, precise biomolecule counting based on unique molecular identifier (UMI) has potential to increase biomolecule detection accuracy. Although UMIs are widely used in basic research its introduction to clinical assays is still in progress. Here, we present a robust and cost-effective TAC-seq (Targeted Allele Counting by sequencing) method that uses UMIs to estimate the original molecule counts of mRNAs, microRNAs, and cell-free DNA. We applied TAC-seq in three different clinical applications and compared the results with standard NGS. RNA samples extracted from human endometrial biopsies were analyzed using previously described 57 mRNA-based receptivity biomarkers and 49 selected microRNAs at different expression levels. Cell-free DNA aneuploidy testing was based on cell line (47,XX, +21) genomic DNA. TAC-seq mRNA profiling showed identical clustering results to transcriptome RNA sequencing, and microRNA detection demonstrated significant reduction in amplification bias, allowing to determine minor expression changes between different samples that remained undetermined by standard NGS. The mimicking experiment for cell-free DNA fetal aneuploidy analysis showed that TAC-seq can be applied to count highly fragmented DNA, detecting significant (p?=?7.6?×?10?4) excess of chromosome 21 molecules at 10% fetal fraction level. Based on three proof-of-principle applications we demonstrate that TAC-seq is an accurate and highly potential biomarker profiling method for advanced medical research and diagnostics.
靶向二代測序(NGS)方法已成為醫學研究和診斷的基本方法。 除了 NGS 的敏感性和高通量特征之外, 基于唯一分子標識符(UMI) 的精準生物分子計數具有提高生物分子檢測精度的潛力。 雖然 UMI 在基礎研究中得到了廣泛的應用, 但是其引入臨床試驗的工作仍在進 行中。 在此, 我們提出一種穩健且經濟有效的 TAC-seq(通過測序進 行目標等位基因計數)方法, 該方法使用 UMI 來估計 mRNA、 miRNA 和 cell-free DNA 的原始分子計數。 我們在三種不同的臨床應用中使 用 TAC-seq, 并將結果與標準的 NGS 進行比較。 使用先前描述的 57 種基于 mRNA 的感受態生物標記物和 49 種不同表達水平的 miRNA, 對從人子宮內膜中提取的 RNA 樣品進行分析。 基于細胞系(47, XX, +21) 基因組 DNA 對 cell-free DNA 進行非整倍體檢測。 TAC-seq 的 mRNA 譜顯示與轉錄組 RNA 測序相同的聚類結果, 并且其 miRNA 檢測顯示擴增偏倚顯著降低, 從而能夠確定不同樣品之間的微小表達 變化, 而標準的 NGS 技術不能明確。 cell-free DNA 的胎兒非整倍體 分析的模擬實驗表明, TAC-seq 可用于高片段 DNA 的計數, 在 10% 胎兒分數水平檢測到 21 號染色體分子顯著過表達(p=7.6×10_4) 。 基于三個原理證明的使用, 我們證明 TAC-seq 是一種能用于醫學研究 和診斷的精準且高潛能生物標記物譜分析方法。
Fig. 1. Principle and technical parameters of TAC-seq. a Schematic diagram of the assay to detect specific mRNA or cell-free DNA. Target-specific DNA oligonucleotide detector probes hybridize under stringent conditions to the studied cDNA or cfDNA. Both detector oligonucleotides consist of a specific 27-bp region (green), 4-bp unique molecular identifier (UMI) motif (NNNN), and universal sequences (purple and orange). The right detector oligonucleotide is 5′ phosphorylated. After rigorous hybridization, the pair of detector probes is ligated using a thermostable ligase under stringent conditions. Next, the ligated detectors complexed with the target region are captured with magnetic beads and PCR amplified to introduce sample-specific barcodes and other common motifs that are required for single-read NGS. b Spearman correlation analysis of the input and detected ERCC synthetic spike-in mRNA molecules at UMI threshold 4 (UMI?=?4). UMI threshold is defined as the number of detected unique UMI sequences. For example, UMI?=?4 indicates that a certain UMI motif is detected at least four times. UMIs are valuable only if the number of UMI combinations (8-bp UMI provides 65,536 variants, for example) is substantially larger than the sum of the target molecules in the studied sample. c Bar plot of Spearman’s correlation analysis of the ERCC input and detected molecules at different UMI thresholds. d Reproducibility of seven technical ERCC replicates (seven different icons on plot) of 22 spike-in molecules at UMI?=?4
TAC-seq的原理和技術參數 。 a 用于檢測特異性 mRNA 或 cell-freeDNA 的檢測方法的示意圖。 目的特異性 DNA 寡核苷酸檢測探針在嚴格的條件下與所研究的 cDNA或 cfDNA雜交。兩種檢測器寡核苷酸都由特定的 27-bp區域(綠 色) 、 4-bp 唯一分子標識符(UMI) 基序(NNNN) 和通用序列(紫 色和橙色) 組成。 右側檢測的寡核苷酸是 5′ 磷酸化的。 經過嚴密雜 交后, 在嚴格條件下使用耐高溫連接酶連接一對檢測器探針。接下來, 用磁珠捕獲與目標區域復合的結合檢測器, 并擴增 PCR 以引入單讀 數 NGS 所需的特定于樣品的條形碼和其他常見圖案。 b, 在唯一分子標識符閾值為 4(UMI=4)的情況下, 對輸入的和 檢測到的 External RNA Controls Consortium (ERCC)中 mRNA 分子進 行 Spearman 相關分析。UMI 的閾值定義為檢測到的唯一 UMI 序列的 數量。例如, UMI=4 指示至少四次檢測到某個 UMI。 UMI 只有當 UMI 組合的數量(例如, 8-bp UMI 提供 65536 個變體) 顯著大于研究樣 本中的目標分子總和時才有價值。 c Spearman 對 ERCC 輸入和檢測分子在不同 UMI 閾值下的相關 性分析的條形圖。 d 在 UMI=4 時, 22 個尖峰分子的 7 個技術 ERCC 復制品(圖中 的 7 個不同的圖標) 的重現性。
Fig 2. Comparison of the overall predictions for mRNA TAC-seq assay. a Principal component analysis of the full transcriptome RNA-seq, high-coverage TAC-seq and low-coverage TAC-seq of ten endometrial samples. The first principal component (PC1) describes most of the sample variability and correlates most with the receptivity status. Blue dots represent pre-receptive and red dots receptive human endometrial samples. One separate pre-receptive sample (indicated with an asterisk) represents the same sample that clusters differently in the heatmap analysis (below) and is, therefore, a potential biological outlier. b Heatmaps of the full transcriptome RNA-seq, high-coverage-, and low-coverage TAC-seq show the sensitivity to distinguish different endometrial samples according to their receptivity. One pre-receptive sample (indicated with an asterisk) shares the expression profile and clusters together with receptive samples in all three comparisons. Pre-receptive samples are labeled blue and receptive red. Detailed heatmaps are presented in Supplementary Fig. 3 together with housekeeping genes that demonstrate a lack of fluctuation of the pre-receptive and receptive biopsies. High-coverage TAC-seq data are presented at UMI?=?2 and low-coverage data at UMI?=?1 on PCA and heatmaps. Higher UMI thresholds in both high- and low-coverage approaches left low-expressed biomarker genes, like APOD, EDN3 etc without reads, according to Supplementary Fig. 4. The data are plotted as row-wise scaled ==log-transformed counts per million (CPM)== values. The samples are hierarchically clustered column-wise using Pearson correlation. The genes are ordered row-wise according to the RNA-seq clustering results using Euclidean distance. Fewer genes are found expressed with a low-coverage compared to RNA-seq and high-coverage TAC-seq
圖2. 比較TAC-seq實驗預測的總體mRNA的。對10個子宮內膜樣本的全轉錄組RNA-seq,高覆蓋率TAC-seq和低覆蓋率TAC-seq的主成分分析。第一主成分(PC1)描述了大部分樣本變異性,并且與接受性狀態最相關。藍點代表接受性和紅色點接受性人子宮內膜樣品。一個單獨的預接受樣本(用星號表示)表示在熱圖分析(下圖)中聚類不同的相同樣本,因此是潛在的生物異常值。 b完整轉錄組RNA-seq,高覆蓋率和低覆蓋率TAC-seq的熱圖顯示了根據其接受性區分不同子宮內膜樣品的敏感性。一個預接受樣本(用星號表示)與所有三個比較中的接受樣本共享表達譜和簇。預接受樣品標記為藍色且接受紅色。詳細的熱圖在補充圖3中與管家基因一起呈現,其表明預接受和接受活組織檢查的波動不足。高覆蓋率TAC-seq數據以UMI = 2呈現,低覆蓋率數據以UMI = 1呈現在PCA和熱圖上。根據補充圖4,高覆蓋率和低覆蓋率方法中都設置了較高的UMI閾值,從而篩掉了低表達的生物標記基因,像APOD,EDN3等沒有讀數.數據繪制成每百萬行標度對數轉化計數( CPM)值。使用Pearson相關性對樣本進行分層聚類。根據使用歐幾里德距離的RNA-seq聚類結果對每行的基因進行排序。與RNA-seq和高覆蓋率TAC-seq相比,發現較少的基因以低覆蓋率表達
Fig 3. TAC-seq miRNA assay performance. Correlation plots of four miRNA sample ==technical replicates==(技術重復) using TAC-seq assay at UMI?=?4. miRNA sample 1 is on the left hand and has two replicates, one plotted on the x-axis and the other on the y-axis. The same with miRNA sample 2 on the right hand
圖3. TAC-seq miRNA試驗的性能。在UMI=4時,采用TAC-seq方法測定的四種miRNA樣本技術重復之間的相關圖。miRNA樣本1在左邊,有兩個重復,一個在x軸上,另一個在y軸上。對于右邊的miRNA樣本2來說也是一樣的
fig 4. ==Trisomy==(21三體) detection under in vitro conditions. Boxplots over applied UMI thresholds of normalized molecule counts (y-axis) of trisomy TAC-seq experiments indicates a positive correlation between the trisomy factor (x-axis, trisomic cell proportion) and chr21 counts. Experiment 1, upper four plots, involved 114 loci along chr2 and chr21. One biological replica is depicted. Experiment 2, lower four plots at various UMI thresholds, involved extended TAC-seq probe set (in total 224 probes) along chr2, chr3, and chr21. The red asterisks indicate significant reference chromosome(s) and chr21 read-count-based differences between studied samples (p?<?0.05, one-tailed Welch’s t-test)
體外條件下的三染色體細胞檢測。三染色體細胞 taco -seq 實驗歸一化分子計數(y 軸)的 UMI 閾值以上的箱線圖表明,三染色體因子(x 軸, 三染色體的細胞比例)與 chr21 計數呈正相關。 實驗一, 如上面四個圖, 包括沿著 chr2 和 chr21 的 114 個位點。描繪了一個生物復制品。 實驗 2,降低 4 個不同 UMI 閾值的小區, 涉及到沿 chr2、 chr3 和 chr21 延伸的 taco -seq 探 針組(共 224 個探針)。 紅色星號表示研究樣本間的參考染色體(s)和基于 chr21 讀計數的差異 顯著性(p<0.05, 單尾 t 檢驗)。
討論
將NGS的高靈敏度和靈活性與有針對性的高效、精確的定量方法相結合,可以對特定的核酸生物標志物進行穩健的檢測,從而指示(病理)生理狀況。TAC-seq是一種先進的基于連接的NGS方法,它不同于現 有的連接-PCR方法,如mlpa 6、MLPA-seq 5、tempo-seq 4、RASL-seq 7和dansr8。TAC-seq的主要 優點是能夠檢測mRNA和miRNA等轉錄生物標記分子的數量,以及cfDNA的基因組位點。精確的分子計 數是通過集成umi或“分子條形碼”模板12來實現的,這減少了體外復制步驟帶來的定量和隨機偏差。使 用UMIS去除PCR重復,減少了主要NGS特異性技術偏差之一,提高了NGS的準確性。
我們對22個分析ERCC尖峰輸入和分子(Spearmanr?=?0.9958在圖上。1d)檢測并觀察到非常高的靈敏度 相關高覆蓋度,保證每個UMI覆蓋率為102×。根據覆蓋范圍,我們相信,幾乎沒有錯過聯合管理信息系 統,因此,這一結果是可靠的。然而,低表達的目標和高表達的目標之間的系統性差異被低估了,高拷 貝分子的數量被低估了(見補充表1中的前四位ERCC尖峰)。這是由umi序列的長度來解釋的,它導致 了“技術飽和”。在本研究中使用的8個核苷酸UMIS有6.5萬個可能的序列,適用于cfDNA三體檢測,因為 10?ml血中cfDNA的拷貝數<5000.23,24。同樣適用于較低濃度的tc-seq表達應用。或者,可以將這兩 個檢測器探針中的umi序列從當前的8個核苷酸擴展到12個核苷酸,從而確保1670萬個可能的組合。同 時,我們也意識到,在探測器中引入更長、更隨機的umi串,可能會增加探測器自配對和非特異性連接 的概率。然而,諸如“飽和度”和復制等與之相關的問題導致了小說“幻影”umis 25,在分析設計和數據分 析時應該加以考慮。
TAC-seq的設計考慮到了基因檢測實驗室的主要先決條件-敏感性、健壯性和成本效益。文中還討論了 MEU的靈敏度和分子計數問題。單管協議保證了系統的魯棒性,最大限度地減少了等位基因丟失的風 險.此外,該方法是無稀釋的,這意味著被分析的生物標記分子與連接的探測器探針一起被捕獲并通過測 序鑒定。后者在液體活檢樣本中至關重要,因為每個位點只有數千份拷貝。如果采用與特定探針連接的 方法,則探針雜交兼容的目標cfdna拷貝數減少25%,原因是cfdna長度較短(180?bp),因為如果cfdna片 段位于距cfdna片段近25?的位置,則沒有檢測到該位點。 TAC-seq通過寡核苷酸啟動的cDNA合成(Poly-a選擇)檢測mRNA生物標志物,反映活性轉錄組的分析。 它不同于最近描述的Splintr連接酶26用于RNA/DNA雜交的Tempo-Sq4,它被用于通過特定的檢測器寡 核苷酸檢測任何,甚至是片段的RNA靶點。此外,Splintr連接酶的最佳工作溫度為37?℃,這可能限制了 已形成的RNA/DNA探針復合物預先連接的特異性。相比之下,tac-seq使用熱穩定的水熱菌dna連接酶 27,使特異性雜交和連接在溫度超過45?°C。基于TaqDNA連接酶的這一特性,我們首次在60?°c進行了 特異性探針-靶雜交,并在相同溫度下引入連接酶連接到臨近退火鏈中。 由于測序是NGS成本的主要來源,因此在常規NGS臨床應用中應用支持低覆蓋率測序的庫準備是至關重 要的。通過現成試劑和基因組實驗室常用儀器的使用,如標準熱循環儀和臺式NGS測序器,確保了 TAC-seq的成本效益。TAC-seq的運行成本僅為一般NGS應用的一小部分,如NIPT的全基因組測序或 mRNA和miRNA分析的RNA-seq。TAC-seq的建立成本取決于由于需要特定的檢測器寡核苷酸而研究的 位點數目(補充圖)。10)補充表2列出了消耗品及其大致價格,并在方法中加以解釋。根據自制文庫的制 備和測序,根據測序深度的不同,miRNA譜和cfDNA分析的總試劑成本小于30歐元/份,而mRNA生物標 志物分析的成本低于26~40歐元/份。因此,TAC-seq有可能成為臨床研究后常規NIPT或檢測轉錄組生物 標記物水平的一種具有成本效益的替代品。 TAC-seq探針的特異性由mRNA和gDNA上的54-BP長區決定.我們開發了自動化的mRNA探針設計軟件 (http://nipt.ut.ee/design/),在使用上沒有限制,并在補充方法中進行了描述),使探針設計過程自動 化,并提供高特異性的寡核苷酸序列和可供合成的公共單元。miRNA分子的探針設計更加簡單,不需要 特殊的軟件(見補充圖)。6)另一個使NGS作為檢測方法選擇的簡化方法是用戶友好的數據分析。小型 NGS數據分析不需要強大的計算資源.為此,我們為小型tac-seq數據分析提供了用戶友好的個人計算機 軟件,并提供了用于密集分析的開放源代碼(鏈接在方法中)。簡單的分析流水線克服了NGS“大數據”的局限性。大多數需要資源的原始數據處理都是由Illumina云計算環境完成的。接下來的tc-seq分析是基于 文本文件操作的,消除了排序讀取映射的需要,使得在個人計算機中執行NGS分析成為可能(參見方法 的詳細信息)。
應用umi閾值取決于應用類型和排序深度。cfDNA分析的基礎是期望所有研究的基因座都以相對相似的 拷貝數表示。如果對PCR周期進行優化以避免過度擴增,我們建議使用umi?=?1或umi?=?2閾值(圖1)。4) 轉錄組生物標志物分析面臨著原始分子計數的多樣性(補充圖)。4)轉錄組的差異根據低表達的分子決定 最優的umi閾值。過于嚴格的閾值過濾掉低表達的生物標記物。 總之,我們發展了一種高度靈敏和并行的方法來精確地計數研究樣品中核酸生物標記分子的數 量。我們的原理證明表明,tac-seq方法在mRNA和miRNA的應用中具有與金標準RNA-seq法相似 的靈敏度,能夠成功地檢測出類cfDNA材料中cfDNA分子的過量(指示染色體三體)。TAC-seq是一 種自動化兼容的方法,旨在克服基因檢測實驗室中基于連接和NGS的限制。雖然所有的應用都需 要經過仔細的臨床驗證才能被使用,但所描述的方法是進一步專業化和優化的基礎,以提供先進 的DNA和RNA生物標志物分析工具,從而提高相應研究和保健應用的范圍和質量。
翻譯小組:
王俊豪、陳凱星、鄧峻瑋、黃敬潼、陳志榮、黃子亮、鄭凌伶