作者：Arno
審稿：童蒙
編輯：angelica

全長轉錄組測序（Isoform-sequencing，Iso-seq）基于PacBio單分子實時測序技術（SMRT cell）,憑借超長讀長的優勢，建庫過程中無需打斷RNA分子，直接對反轉錄的全長cDNA測序，得到從5’末端到3’PolyA尾的高質量全長轉錄本序列，且目前其CCS模式可以達到超高的準確率，可用來進行轉錄本鑒定、融合基因、可變剪切、精確地分析轉錄本的結構等分析。

全長轉錄組的文庫結構

通過調取polyA尾的全長轉錄本序列，經反轉錄成cDNA之后，經過一定規模的擴增，然后進行cDNA損傷修復、末端修復、接頭連接、外切酶處理等過程構建Iso-seq RNA文庫，其文庫構建過程如圖一所示。

圖一：Iso-seq文庫構建過程

構建后的啞鈴型文庫包含測序接頭、引物、barcode以及插入片段，如圖二所示：

圖二：Iso-seq文庫結構

測序模式

PacBio根據其文庫片段長度分為兩種模式測序：

其一為CLR模式，對于較長的插入片段，DNA聚合酶的活性不足以支撐合成完全部插入片段，或者僅能合成完一圈多，得到的polymerase reads去除測序接頭即為最長subreads；

第二種是CCS模式，對于較短的插入片段，DNA聚合酶的活性可以支撐合成多圈插入片段，此時去除完接頭后即為完整的全長的插入片段，同一ZMW孔可產出多個subreads，對subreads進行相互的校驗可以得到一致性序列，即CCS（Circular Consensus Sequencing）序列，其10X的準確率可達99.9%，30X可達99.999%。

轉錄本鑒定

完整的插入片段序列（Reads of Insert，ROI）一般具有以下特征：包含5’primer、3’primer，且3’primer前存在polyA序列，即Iso-seq文庫結構圖所示。

因此，理論上我們需要鑒定有這些特征的CCS即可，但實際上，建庫過程中會產生嵌合體等非我們需要的序列，需要去過濾掉，整體的轉錄本鑒定流程可參考圖三所示。具體鑒定過程以及實踐如下步驟所示。

圖三：轉錄本鑒定流程圖

Step1.Consensus generation

SMRT cell測序下機后經 smrtlink server初級處理，會將polymerase reads去除接頭低質量序列等，轉為subreads序列。

具體的用于后續分析的文件為：
movie.subreads.bam
movie.subreads.bam.pbi
movie.subreadset.xml

通過smrttools的ccs工具將subreads.bam轉為ccs.bam，具體命令如下：

~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 還可指定--min-passes以及線程數--num-threads
此過程比較耗費資源與時間，如果資源充足，想快速完成ccs的轉換，可以對bam文件進行切割，分開轉ccs，最后再合并。以下提供了兩種并行轉ccs的方式，供參考。

## step1. 拆分subreads.bam文件
~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
split ZMWs.xls -l 200000 -d -a 4 data_
for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
## step2. 并行轉ccs
for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
## step3. 合并ccs.bam,可使用samtools或pbmerge
samtools merge movieX.ccs.bam ccs_data_00*.bam
pbmerge -o movieX.ccs.bam ccs_data_00*.bam
## step1. 并行轉ccs
ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 303ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
...
ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
## step2. merge
samtools merge movieX.ccs.bam movieX.ccs.*.bam
pbmerge -o movieX.ccs.bam movieX.ccs.*.bam

Step2. Primer Removal

獲得CCS序列之后，首先需要去掉文庫構建過程中的5’和3’測序引物，如果帶有barcode，同時也需要去除barcode序列，具體操作可按如下方式：

~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
其中primer及barcode的格式如下，標簽名稱必須以“5p”,“3p“結尾，如果有多個3p barcode序列（即包含多個樣本），則會同時按照此barcode序列進行拆分，拆分以及去除完引物之后會得到各自樣本的bam文件。

文件名稱包含引物序列標簽：
movieX.fl.primer_5p--test1_3p.bam
movieX.fl.primer_5p--test2_3p.bam

1>primer_5p
2AAGCAGTGGTATCAACGCAGAGTACATGGGG
3>test1_3p
4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
5>test2_3p
6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT

Step3. Isoseq3 refine

轉錄組文庫在構建過程中可能會產生嵌合體，即同一個ZMW中兩個轉錄本嵌合到一起。這種嵌合體的出現主要由以下兩種情況產生：

其一是文庫制備階段，adapter序列錯誤地將兩條轉錄本的序列連接構成了一個環狀分子，這種情況一般和adapter濃度有關。
其二是在逆轉錄PCR反應中，因不完全延伸的產物作為了下次擴增反應的引物，從而出現嵌合體。

鑒于此，這一步需要做的就是對拆分完且去除完引物的CCS序列，進一步過濾，去除嵌合體序列。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

Step4. Isoseq3 cluster & Polish

由于一個ZMW孔會產生一個轉錄本序列，即一個CCS，所以不同的CCS可能會是相同的轉錄本序列，即存在冗余的情況，因此需要再通過聚類（cluster）的方式，對全長轉錄本序列進行聚類，得到一致性的轉錄本序列。

Polish糾錯是為了進一步提升轉錄本中堿基的質量，但是這一過程也是非常耗時，目前smrtlink v8版本及以上可以不必進行Polish，即可獲得準確度大于0.99的高質量轉錄本（high-quality isoforms，HQ），和低質量轉錄本（low-quality isoforms，LQ）。

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs

~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必須

以上步驟即可得到高質量的轉錄本序列，其輸出結果有如下一些文件。

后續可用polished.hq.fasta.gz進行比對分析等。

 polished.bam
 polished.bam.pbi
 polished.cluster
 polished.cluster_report.csv
 polished.hq.bam
 polished.hq.bam.pbi
 polished.hq.fasta.gz
 polished.lq.bam
 polished.lq.bam.pbi
 polished.lq.fasta.gz
 polished.transcriptset.xml

總結

全長轉錄本的鑒定是Iso-seq分析最重要的一步，鑒定出的轉錄本的質量也決定了后續分析的質量，高質量的轉錄本可以對轉錄本的結構進行精確的分析，當然也取決于后續的比對。

隨著三代測序技術的發展，目前其準確度也已經可以KO普通的轉錄組分析了，如果你還不了解三代轉錄組的分析內容可以關注我們，希望可以讓你學到更多。

參考資料
https://github.com/PacificBiosciences/IsoSeq
https://www.cnblogs.com/xudongliang/p/7473463.html

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

全長轉錄本的鑒定