作者:Arno
審稿:童蒙
編輯:angelica
全長轉錄組測序(Isoform-sequencing,Iso-seq)基于PacBio單分子實時測序技術(SMRT cell),憑借超長讀長的優勢,建庫過程中無需打斷RNA分子,直接對反轉錄的全長cDNA測序,得到從5’末端到3’PolyA尾的高質量全長轉錄本序列,且目前其CCS模式可以達到超高的準確率,可用來進行轉錄本鑒定、融合基因、可變剪切、精確地分析轉錄本的結構等分析。
全長轉錄組的文庫結構
通過調取polyA尾的全長轉錄本序列,經反轉錄成cDNA之后,經過一定規模的擴增,然后進行cDNA損傷修復、末端修復、接頭連接、外切酶處理等過程構建Iso-seq RNA文庫,其文庫構建過程如圖一所示。
構建后的啞鈴型文庫包含測序接頭、引物、barcode以及插入片段,如圖二所示:
測序模式
PacBio根據其文庫片段長度分為兩種模式測序:
其一為CLR模式,對于較長的插入片段,DNA聚合酶的活性不足以支撐合成完全部插入片段,或者僅能合成完一圈多,得到的polymerase reads去除測序接頭即為最長subreads;
第二種是CCS模式,對于較短的插入片段,DNA聚合酶的活性可以支撐合成多圈插入片段,此時去除完接頭后即為完整的全長的插入片段,同一ZMW孔可產出多個subreads,對subreads進行相互的校驗可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的準確率可達99.9%,30X可達99.999%。
轉錄本鑒定
完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文庫結構圖所示。
因此,理論上我們需要鑒定有這些特征的CCS即可,但實際上,建庫過程中會產生嵌合體等非我們需要的序列,需要去過濾掉,整體的轉錄本鑒定流程可參考圖三所示。具體鑒定過程以及實踐如下步驟所示。
Step1.Consensus generation
SMRT cell測序下機后經 smrtlink server初級處理,會將polymerase reads去除接頭低質量序列等,轉為subreads序列。
具體的用于后續分析的文件為:
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml
通過smrttools的ccs工具將subreads.bam轉為ccs.bam,具體命令如下:
~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 還可指定--min-passes以及線程數--num-threads
此過程比較耗費資源與時間,如果資源充足,想快速完成ccs的轉換,可以對bam文件進行切割,分開轉ccs,最后再合并。以下提供了兩種并行轉ccs的方式,供參考。
## step1. 拆分subreads.bam文件
~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
split ZMWs.xls -l 200000 -d -a 4 data_
for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
## step2. 并行轉ccs
for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
## step3. 合并ccs.bam,可使用samtools或pbmerge
samtools merge movieX.ccs.bam ccs_data_00*.bam
pbmerge -o movieX.ccs.bam ccs_data_00*.bam
## step1. 并行轉ccs
ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 303ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
...
ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
## step2. merge
samtools merge movieX.ccs.bam movieX.ccs.*.bam
pbmerge -o movieX.ccs.bam movieX.ccs.*.bam
Step2. Primer Removal
獲得CCS序列之后,首先需要去掉文庫構建過程中的5’和3’測序引物,如果帶有barcode,同時也需要去除barcode序列,具體操作可按如下方式:
~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下,標簽名稱必須以“5p”,“3p“結尾,如果有多個3p barcode序列(即包含多個樣本),則會同時按照此barcode序列進行拆分,拆分以及去除完引物之后會得到各自樣本的bam文件。
文件名稱包含引物序列標簽:
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam
1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT
Step3. Isoseq3 refine
轉錄組文庫在構建過程中可能會產生嵌合體,即同一個ZMW中兩個轉錄本嵌合到一起。這種嵌合體的出現主要由以下兩種情況產生:
- 其一是文庫制備階段,adapter序列錯誤地將兩條轉錄本的序列連接構成了一個環狀分子,這種情況一般和adapter濃度有關。
- 其二是在逆轉錄PCR反應中,因不完全延伸的產物作為了下次擴增反應的引物,從而出現嵌合體。
鑒于此,這一步需要做的就是對拆分完且去除完引物的CCS序列,進一步過濾,去除嵌合體序列。
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20
Step4. Isoseq3 cluster & Polish
由于一個ZMW孔會產生一個轉錄本序列,即一個CCS,所以不同的CCS可能會是相同的轉錄本序列,即存在冗余的情況,因此需要再通過聚類(cluster)的方式,對全長轉錄本序列進行聚類,得到一致性的轉錄本序列。
Polish糾錯是為了進一步提升轉錄本中堿基的質量,但是這一過程也是非常耗時,目前smrtlink v8版本及以上可以不必進行Polish,即可獲得準確度大于0.99的高質量轉錄本(high-quality isoforms,HQ),和低質量轉錄本(low-quality isoforms,LQ)。
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs
~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必須
以上步驟即可得到高質量的轉錄本序列,其輸出結果有如下一些文件。
后續可用polished.hq.fasta.gz進行比對分析等。
polished.bam
polished.bam.pbi
polished.cluster
polished.cluster_report.csv
polished.hq.bam
polished.hq.bam.pbi
polished.hq.fasta.gz
polished.lq.bam
polished.lq.bam.pbi
polished.lq.fasta.gz
polished.transcriptset.xml
總結
全長轉錄本的鑒定是Iso-seq分析最重要的一步,鑒定出的轉錄本的質量也決定了后續分析的質量,高質量的轉錄本可以對轉錄本的結構進行精確的分析,當然也取決于后續的比對。
隨著三代測序技術的發展,目前其準確度也已經可以KO普通的轉錄組分析了,如果你還不了解三代轉錄組的分析內容可以關注我們,希望可以讓你學到更多。
參考資料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html