全長轉錄本的鑒定

作者:Arno
審稿:童蒙
編輯:angelica

全長轉錄組測序(Isoform-sequencing,Iso-seq)基于PacBio單分子實時測序技術(SMRT cell),憑借超長讀長的優勢,建庫過程中無需打斷RNA分子,直接對反轉錄的全長cDNA測序,得到從5’末端到3’PolyA尾的高質量全長轉錄本序列,且目前其CCS模式可以達到超高的準確率,可用來進行轉錄本鑒定、融合基因、可變剪切、精確地分析轉錄本的結構等分析。

全長轉錄組的文庫結構

通過調取polyA尾的全長轉錄本序列,經反轉錄成cDNA之后,經過一定規模的擴增,然后進行cDNA損傷修復、末端修復、接頭連接、外切酶處理等過程構建Iso-seq RNA文庫,其文庫構建過程如圖一所示。

圖一:Iso-seq文庫構建過程

構建后的啞鈴型文庫包含測序接頭、引物、barcode以及插入片段,如圖二所示:

圖二:Iso-seq文庫結構

測序模式

PacBio根據其文庫片段長度分為兩種模式測序:

其一為CLR模式,對于較長的插入片段,DNA聚合酶的活性不足以支撐合成完全部插入片段,或者僅能合成完一圈多,得到的polymerase reads去除測序接頭即為最長subreads;

第二種是CCS模式,對于較短的插入片段,DNA聚合酶的活性可以支撐合成多圈插入片段,此時去除完接頭后即為完整的全長的插入片段,同一ZMW孔可產出多個subreads,對subreads進行相互的校驗可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的準確率可達99.9%,30X可達99.999%。

轉錄本鑒定

完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文庫結構圖所示。

因此,理論上我們需要鑒定有這些特征的CCS即可,但實際上,建庫過程中會產生嵌合體等非我們需要的序列,需要去過濾掉,整體的轉錄本鑒定流程可參考圖三所示。具體鑒定過程以及實踐如下步驟所示。

圖三:轉錄本鑒定流程圖

Step1.Consensus generation

SMRT cell測序下機后經 smrtlink server初級處理,會將polymerase reads去除接頭低質量序列等,轉為subreads序列。

具體的用于后續分析的文件為:
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml

通過smrttools的ccs工具將subreads.bam轉為ccs.bam,具體命令如下:

~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 還可指定--min-passes以及線程數--num-threads
此過程比較耗費資源與時間,如果資源充足,想快速完成ccs的轉換,可以對bam文件進行切割,分開轉ccs,最后再合并。以下提供了兩種并行轉ccs的方式,供參考。

## step1. 拆分subreads.bam文件
~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
split ZMWs.xls -l 200000 -d -a 4 data_
for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
## step2. 并行轉ccs
for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
## step3. 合并ccs.bam,可使用samtools或pbmerge
samtools merge movieX.ccs.bam ccs_data_00*.bam
pbmerge -o movieX.ccs.bam ccs_data_00*.bam
## step1. 并行轉ccs
ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 303ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
...
ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
## step2. merge
samtools merge movieX.ccs.bam movieX.ccs.*.bam
pbmerge -o movieX.ccs.bam movieX.ccs.*.bam

Step2. Primer Removal

獲得CCS序列之后,首先需要去掉文庫構建過程中的5’和3’測序引物,如果帶有barcode,同時也需要去除barcode序列,具體操作可按如下方式:

~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下,標簽名稱必須以“5p”,“3p“結尾,如果有多個3p barcode序列(即包含多個樣本),則會同時按照此barcode序列進行拆分,拆分以及去除完引物之后會得到各自樣本的bam文件。

文件名稱包含引物序列標簽:
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam

1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT

Step3. Isoseq3 refine

轉錄組文庫在構建過程中可能會產生嵌合體,即同一個ZMW中兩個轉錄本嵌合到一起。這種嵌合體的出現主要由以下兩種情況產生:

  • 其一是文庫制備階段,adapter序列錯誤地將兩條轉錄本的序列連接構成了一個環狀分子,這種情況一般和adapter濃度有關。
  • 其二是在逆轉錄PCR反應中,因不完全延伸的產物作為了下次擴增反應的引物,從而出現嵌合體。

鑒于此,這一步需要做的就是對拆分完且去除完引物的CCS序列,進一步過濾,去除嵌合體序列。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

Step4. Isoseq3 cluster & Polish

由于一個ZMW孔會產生一個轉錄本序列,即一個CCS,所以不同的CCS可能會是相同的轉錄本序列,即存在冗余的情況,因此需要再通過聚類(cluster)的方式,對全長轉錄本序列進行聚類,得到一致性的轉錄本序列。

Polish糾錯是為了進一步提升轉錄本中堿基的質量,但是這一過程也是非常耗時,目前smrtlink v8版本及以上可以不必進行Polish,即可獲得準確度大于0.99的高質量轉錄本(high-quality isoforms,HQ),和低質量轉錄本(low-quality isoforms,LQ)。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必須

以上步驟即可得到高質量的轉錄本序列,其輸出結果有如下一些文件。

后續可用polished.hq.fasta.gz進行比對分析等。

 polished.bam
 polished.bam.pbi
 polished.cluster
 polished.cluster_report.csv
 polished.hq.bam
 polished.hq.bam.pbi
 polished.hq.fasta.gz
 polished.lq.bam
 polished.lq.bam.pbi
 polished.lq.fasta.gz
 polished.transcriptset.xml

總結

全長轉錄本的鑒定是Iso-seq分析最重要的一步,鑒定出的轉錄本的質量也決定了后續分析的質量,高質量的轉錄本可以對轉錄本的結構進行精確的分析,當然也取決于后續的比對。

隨著三代測序技術的發展,目前其準確度也已經可以KO普通的轉錄組分析了,如果你還不了解三代轉錄組的分析內容可以關注我們,希望可以讓你學到更多。

參考資料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,117評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,860評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,128評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,291評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,025評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,421評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,477評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,642評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,177評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,970評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,157評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,717評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,410評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,821評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,053評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,896評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,157評論 2 375