CLIP-seq結合了實驗和測序方法,可以研究某種蛋白質在體內的RNA的結合情況。原理為基于RNA和RNA結合蛋白在紫外線照射下發生偶聯,再經過蛋白特異性抗體將其沉淀,回收片段,再經添加接頭,PCR擴增,進行高通量測序,最后經過生物信息學方法分析和處理得到相應的結果。本篇文章注重討論后續的生物信息學處理。
這篇文章總結一下如何從測序得到原始數據到質控以及序列匹配和peakcalling等步驟,目的是得到蛋白質及其結合RNA的對應關系。涉及到的軟件有fastx_toolkit(去接頭質控)、bowtie(序列匹配)、samtools(生成bam文件)、bamtools(bam文件排序)、bedtools(bed文件)、piranha(peak_calling)等的使用。
首先討論數據的獲取,通常來源于公共數據庫的下載,或者是實驗所測得。公共數據庫可以從多種途徑上下,諸如ENA,SRA等。我處理的數據全部從SRA上下載。
下載數據我用的是aspera,aspera是一種高速的文件傳輸系統,下載速度和質量都比較好,至于安裝和編譯過程網上均有較詳細的教程。https://asperasoft.com/
(雙端測序文件通常分成不同FTP,所以下載雙端數據需要在文件名加上后綴_1,_2。)
fastx_toolkit: 安裝編譯網上教程均有,功能為去接頭(adaptor),通常需要卡個長度閾值,然后進行質控(這邊保留至少80%得分大于20的序列)。用到的命令有Clipper、Quality filter、Collapser。
clipper 用于減去接頭,通常根據文章特定信息減去接頭,或者根據不同的測序方法減去特定規定的接頭序列(ilumina)主要包括5端接頭和3端接頭。(cutadapt軟件也能去接頭,根據需要選擇)。quality filter用于質量控制,過濾掉質量偏低的序列,collapser用于壓縮相同的序列,壓縮完后fastq文件格式會轉換為fasta格式。
(雙端測序去接頭主要用cutadapt)
bowtie是一款比較強大的比對軟件,比對前通常需要對參考基因組建立一個索引,常用的如hg19的pre-index,bowtie在主頁已經有了,可直接下載使用(3個G左右),然后根據需要設置參數選項等等。bowtie適合比對reads較短的序列,bowtie2適合比對較長的reads(大于1000).Bowtie: An ultrafast, memory-efficient short read aligner
samtools是一個用于操作sam和bam文件的工具合集,功能較多,這里用來將得到的sam文件抓換為bam文件。bamtools可用來對生成的bam文件進行排序,使其符合一定格式,有利于后續的peak calling,若不執行這一步,則在后續peak calling過程中會報錯,提示你未對bam文件排序。
bedtools是一款及其強大的軟件,具體信息詳見官網介紹,這邊我們先用其bam轉bed,后續還會用到intersect,可以對序列取交集,并根據需要執行不同的輸出。bedtools: a powerful toolset for genome arithmetic — bedtools 2.28.0 documentation
piranha是常用于進行peak calling的軟件,可以通過調整不同的參數,最終能夠得到一部分序列(bed文件)。后續再通過與hg19參考基因組進行取交集,就能得到pc后的序列對應的基因了。