【陳巍學基因-1】外顯子測序

歡迎關注公眾號:oddxix

視頻地址:https://v.qq.com/x/page/h0311d1zbrf.html

分兩個部分進行介紹:

  • 1.介紹外顯子測序的技術方法

  • 2.介紹外顯子測序可以得到哪些有用的生物信息


一、外顯子測序的技術方法

1.1實驗原理

外顯子測序的核心技術是針對人外顯子序列設計的捕獲探針庫,這些探針的序列,都和人外顯子的DNA序列相互補。在實驗過程中,它可和人的外顯子DNA序列進行雜交結合。同時,這些探針都標上了生物素。有了這個捕獲試劑盒,就可以進行建庫和捕獲了。

第一步,是先把基因組DNA進行超聲打碎,建成DNA文庫。

第二步,是把建好的文庫和探針庫進行雜交

雜交過程中,通過核酸序列的互補結合的原理,探針會和目標DNA片段進行結合。再用結合了鏈霉親和素的磁珠,與這個雜交混合液吶進行混合。

因為鏈霉親合素會和生物素牢固結合。這樣,就把我們要捕獲的外顯子目標片段,通過探針,間接地結合到了磁珠上。然后,通過磁鐵把這些磁珠給吸附下來。

而把上清液吶給去掉,也就把沒有結合的DNA片段給洗掉了。接下來,用洗脫液,把我們要的DNA文庫從磁珠上給洗脫下來。那么這些文庫吶,再經過PCR擴增,就可以上HiSeq測序儀進行測序了。測完序以后,就可以進行生物信息學的處理了。


1.2數據分析

先是把這些測序的DNA片段比對到人的基因組上,再把這些比對到基因組的序列進行突變分析。

覆蓋深度

一般用Agilent SureSelect 50M的試劑盒進行外顯子建庫、捕獲。再用HiSeq 2500 V4 PE125的方法進行測序,測10個G的數據量。大約可以得到95X的“有效測序深度”。我們說的有效測序深度(effective sequencing depth)是相對于總測序深度來說的。

總的測序深度吶,是把所有測得的數據(量)去除以目標區域的大小。舉例來說,用Agilent 50M的這個試劑盒,我們測到10個G的數據。去除以目標區域的50M的大小,那么得到的是200X的測序深度(10G/50M = 200X)。但是這個200X的測序深度,對于做生物信息學分析來說吶,并沒有太大的實在意義。因為當中還要扣掉許多無用的數據,才能得到有效的數據。
在外顯子測序中,要扣掉4種因素引起的無效數據。

  • 第一個影響因素:雜交捕獲的過程它不是十分精確的,基因組中的有許多序列,是和外顯子有一定的同源性的。那么這些片段吶,在雜交過程當中,也會被雜交捕獲下來。而這些片段吶,不是基因的外顯子。所以,我們在分析過程當中,首先要把這些序列給去除掉。
  • 第二個影響因素,是捕獲下來的一個片段,很可能它(只有)一部分的序列是落在目標區域還有一部分序列吶,是突出在目標范圍之外的。那么,這部分突出來的序列吶,它不是目標區域,所以,它也不計入外顯子測序的“有效測序深度”。

這個落在目標區的數據,占全部被測到的數據的比例,我們用一個專業術語來稱乎它,叫作捕獲效率(capture efficiency)。那么AgilentSureSelect這個試劑盒吶,它的捕獲效率,大約是65~70%。

  • 第3個影響因素:是Duplication。就是建庫過程當中它的最后一步,是通過PCR擴增把原始的模板,擴增出幾百倍來。那么由同一個模板分子擴增出來的子文庫分子,是長得一模一樣的那么這些多出來的這些分子,如果被重復地測到它并不能為我們提供太多有用的生物信息。所以,我們在生物信息分析的過程當中,我們要去掉這些重復的片段。那么要去掉這些重復的片段我們判斷的依據是:2個DNA分子它們的5'起始位置、和3'的結束位置,完全一模一樣,那么我們就認定這2個分子,是從同一個母分子,PCR出來的(2個)子分子。

然后,我們會比較這2個序列的數據質量,留下那個數據質量比較高的,去掉那個數據質量比較低的,這也就是我們通常所說的“去Duplication"的過程。用Agilent SureSelect試劑盒進行建庫、捕獲,實測10個G的數據,我們發現duplication大約在5%左右。duplication的比例不是恒定不變的。而是會隨著測序深度的增加、而增加,因為上機(測序)的文庫是經過PCR擴增的文庫。隨著測序量增大,那么測到源自同一個模板的PCR子分子的概率吶,就會提高。

  • 第4個影響因素:是目前主流的測序方法是HiSeq V4 PE125。也就是:雙端各測125個堿基,那么Agilent的建庫方法中當吶,插入片段是150~200BP,這樣一個大致范圍的這些片段,那么它的平均片段長度吶,是180BP。那么我們用雙端125的方法來測序就會導致左邊的這個reads(序列)和右邊的這個reads(序列),讀到當中,會有一段,大概會有70BP的交疊。

那這個70BP的交疊的序列,是冗余的序列。也就是說,我們讀了250個BP的序列,但是其中大約有效的呢,是180個(BP)。有70個BP吶,是冗余的。

綜合上述4項因素,我們可以看到,用AgilentSureSelect 50M的這個捕獲試劑盒進行建庫、捕獲,并且用HiSeq V4 PE125的測序方法來測序,測10個G的數據量,那么可以得到,大約95X的有效測序深度,(10 * 0.7 * 0.95 * 180 / 250 / 50 = 95)。

覆蓋均勻性

除了測到的有效數據量之外,還有一個因素會影響到后面的分析,這就是Reads的分布均勻情況,也就是說目標區域的每個堿基被覆蓋的深度的均勻性。那么這個結果吶,是越均勻越好。

科學家經過實測,發現Agilent的SureSelect、和Roche的Nimblegen,這兩個捕獲試劑盒,所得到的覆蓋均勻性是比較好的。


1.3 外顯子測序在腫瘤測序中的優勢

外顯子測序,可以測Germline突變(胚胎形成時就帶有的突變),也可以測體細胞突變(Somatic Mutation),但隨著Illumina推出HiSeq X10測序儀,把人全基因組測序的直接成本降到1000美元以下,那么Germline水平的突變吶,已經很少用外顯子來測了。目前,外顯子測序的主要優勢就體現在腫瘤基因測序方面,之所以外顯子測序在腫瘤基因測序方面有優勢是因為外顯子測序,它的測序深度,可以比較容易地做到“深度”測序。它可以比較輕易地達到100X、200X,甚至更深的測序深度。這就有利于測到 low allele frequency (低等位基因頻名優新)的體細胞突變。因為腫瘤中的突變吶,往往都是 low allele frequency 的體細胞突變。所以,外顯子組測序就在測腫瘤基因組突變方面,顯出比較明顯的優勢來。

那么如果是要測腫瘤中的體細胞突變吶,一般是拿手術切下來的腫瘤組織DNA、和病人外周血中的白細胞基因組DNA,進行外顯子測序。一般腫瘤的測100~200X的深度,白細胞的(DNA)測100X的深度。從白細胞DNA得到這個病人的Germline基因組序列,拿腫瘤的DNA序列與之做對比,找出其中的體細胞突變。


二、外顯子測序可以得到哪些有用的生物信息

2.1SNP信息

外顯子組測序,主要能夠得到的信息是點突變,也就是SNP信息,和插入缺失突變,也就是Indel信息。這張圖就是找到的體細胞突變的泡泡圖。在這個泡泡圖中,突變頻率越高的基因,就畫一個大泡泡,放在圖的中間。突變頻率低一點的基因,就畫一個相對小一點的泡泡,延著逆時針排列。再低頻的突變,再畫一個再小的泡泡,再在外面再排列下去。依此類推,就得到這樣一個泡泡圖。

泡泡圖有利于我們非常直觀地看到樣本中體細胞突變的情況。


2.2GO 和 Pathway 分析

找到突變之后,就可以進一步地做GO和Pathway分析。這張圖是GO分析的結果。

這是根據突變的點在腫瘤中的富集的情況做的分析。分成“細胞組件”、“分子功能”、和“生物過程”3個大類,進行展示。柱子越高,則表示這個亞類當中突變越多。

這是有向無環圖,它把突變進一步一步富集到更精細的小概念當中進行展示。

這個圖中,是越向下,它的功能就劃分得越精細。同時顏色越深的塊塊,則表示突變在這個小概念中富集程度越高。

這是Pathway的KEGG富集分析。它吶,可以幫助我們看到哪些通路發生了顯著的變化。

更深一步的分解分析,則讓我們深入地看到突變的基因在整個通路中所處的節點。

讓我們更好地探索突變和病變之間的關系,我們要說明:在外顯子測序的數據分析當中,對基因組的結構變異是不敏感的。不敏感的原因是外顯子測序,只測了基因組上很小一部分區域,這個比例小到了只有1~2%,所以當結構變異的斷點,不落在外顯子區域的時侯吶,外顯子測序是看不到這些斷點的,所以我們說:外顯子測序對基因組的結構,變異--SV(Structure Variation)吶,是不敏感的。


2.3對CNV不敏感

外顯子測序對拷貝數變異(CNV,copy numbervariation),不是很敏感。不敏感的原因吶,是因為雜交捕獲過程啊,是一個含了很高偶然性的過程。也就是說,一個外顯子片段上,它有多少個reads(序列)被捕獲下來,樣本和樣本之間是有很大差異的。或者說,它的覆蓋度,本來就是忽高忽低的,因為有這種忽高忽低吶。這就導致:一個外顯子上測到的Reads數變高,或者變低。我們很難判斷,是因為這種偶然性吶,還是因為拷貝數發生了變異。所以,外顯子測序,對于小片段的拷貝數變異,它本身是不敏感的。但是,如果基因組上發生了大片段的拷貝數變異。比如說,長度在5M(5M base pair)以上的片段發生了拷貝數變異。那么外顯子測序是可以發現的,這是因為這樣長的片段當中吶,一般含有多個外顯子。當多個外顯子的測序Reads數都發生了改變,那么,它就會有統計上的顯著性。通過這種統計上的顯著性,我們可以來判斷:基因組上的確發生了拷貝數變異。

因為外顯子組測序對結構變異和拷貝數變異不敏感,所以,在實際的腫瘤基因測序中吶,科學家往往是這樣做的:用全基因測序來找到腫瘤樣本中的結構,變異(SV)和拷貝數變異(CNV),再用來外顯子組測序來找腫瘤樣本中的、低頻的SNP和Indel體細胞突變。

參考:https://www.cnblogs.com/think-and-do/p/6613719.html

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容