Trim Galore ——自動檢測adapter的質控軟件

之前分析過的測序數據,數據質量都很好,給了我一個錯覺質控的前后差別不是很大,內心里對質控這一步也就不是很重視,跑完質控有時也懶得看結果,拿到一批測序數據后,也總是忽略了去看測序策略是什么,按照固定的流程用fastqc做質控和trimmomatic去除adpater和低質量的堿基,結果今天翻車了?。?br> 批量跑完了20個數據的ATAC-seq流程,結果發現樣本的比對率參差不齊,有的能達到80-90%,有的卻低于50%,回過頭來找原因發現cleandata中的adpter并沒有去除,也就是說我用的adapter并不是建庫所用的,那么怎么知道這批數據建庫時用的什么adapter呢?
求助了健明師兄,他推薦我使用Trim galore做質控,并且一眼看出我這個測序策略是nextseq(不知道他怎么看出來的)。
查了一下Trim galore,是可以自動檢測adapter,也發現了自己的錯誤,trimmomatic只是針對Illumina高通量測序平臺設計的接頭去除和低質量reads清洗軟件,Nextera的接頭和它是不一樣的(基礎知識很重要?。。。?br> 下面就對Trim galore的下載,安裝和使用做一個簡要介紹,并總結了另外兩個質控軟件Trimmomatic 和cutadapter 的使用。

raw_data /clean_data

1. Trim galore簡介

Trim Galore是對FastQCCutadapt的包裝。適用于所有高通量測序,包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA測序平臺的雙端和單端數據。主要功能包括兩步:
第一步首先去除低質量堿基,然后去除3' 末端的adapter, 如果沒有指定具體的adapter,程序會自動檢測前1million的序列,然后對比前12-13bp的序列是否符合以下類型的adapter:

  • Illumina: AGATCGGAAGAGC
  • Small RNA: TGGAATTCTCGG
  • Nextera: CTGTCTCTTATA

2. 下載安裝軟件 trim galore

conda安裝

conda install trim-galore

conda 環境配置

conda安裝時可以看出依賴的環境很多,我們的大機環境很復雜,我并沒有安裝成功。

下載安裝包安裝:
下載安裝包安裝很簡單,下載后解壓,配置下環境變量就可以使用。

## 需先安裝fastqc和cutadapt
wget https://github.com/FelixKrueger/TrimGalore/archive/0.4.5.tar.gz
tar zxvf 0.4.5.tar.gz

3.使用

# 處理雙端測序結果
echo " trim_galore cut adapters started at $(date)"
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 \
            --paired $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2  \
            --gzip -o $input_data
echo "trim_galore cut adapters finished at $(date)"

參數說明:

--quality:設定Phred quality score閾值,默認為20。
--phred33::選擇-phred33或者-phred64,表示測序平臺使用的Phred quality score。
--adapter:輸入adapter序列。也可以不輸入,Trim Galore!會自動尋找可能性最高的平臺對應的adapter。自動搜選的平臺三個,也直接顯式輸入這三種平臺,即--illumina、--nextera和--small_rna。
--stringency:設定可以忍受的前后adapter重疊的堿基數,默認為1(非??量蹋?梢赃m度放寬,因為后一個adapter幾乎不可能被測序儀讀到。
--length:設定輸出reads長度閾值,小于設定值會被拋棄。
--paired:對于雙端測序結果,一對reads中,如果有一個被剔除,那么另一個會被同樣拋棄,而不管是否達到標準。
--retain_unpaired:對于雙端測序結果,一對reads中,如果一個read達到標準,但是對應的另一個要被拋棄,達到標準的read會被單獨保存為一個文件。
--gzip和--dont_gzip:清洗后的數據zip打包或者不打包。
--output_dir:輸入目錄。需要提前建立目錄,否則運行會報錯。
-- trim-n : 移除read一端的reads


其他質控方法:

Trimmomatic

Trimmomatic是針對Illumina高通量測序平臺設計的接頭去除和低質量reads清洗軟件。軟件中包括有Illumina平臺常見接頭序列,可以很方便處理單端和雙端RNA-seq數據。Trimmomatic也支持自己設計要去除的接頭序列文件。
運行代碼:

## 雙端測序
echo "trimmomatic cut adapters started at $(date)"
java -jar /software/biosoft/software/Trimmomatic-0.36/trimmomatic-0.36.jar PE -threads 8 $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2 \
$input_data/$sample\_paired_clean_R1.fastq.gz \
$input_data/$sample\_unpair_clean_R1.fastq.gz \
$input_data/$sample\_paired_clean_R2.fastq.gz \
$input_data/$sample\_unpair_clean_R2.fastq.gz \
ILLUMINACLIP:/software/biosoft/software/Trimmomatic-0.36/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33
echo "trimmomatic cut adapters finished at $(date)"

重要參數解釋

  • -threads:設置線程數目。

  • -phred33:選擇-phred33或者-phred64,表示測序平臺使用的Phred quality score。查詢方法:首先,運行FastQC,在結果報告第一項會“猜出”測序平臺。之后,查詢平臺對應Phred列表

  • -trimlog:輸出運行日志。日志中包括對每一個read具體選擇數據,所以文件會比較大。

  • ILLUMINACLIP:跟隨四個參數,分別是:<fastaWithAdaptersEtc>為adaptesr文件完整路徑(在Trimmomatic的默認安裝目錄下的 adapter,有整理好的);<fastaWithAdaptersEtc>為seed matches(16bases)在匹配時的最大錯配數目;<palindrome clip threshold>對于一對reads當得分超過30(約50 bases),seeds會被延伸和固定;<simple clip threshold>,對于單端reads當得分超過10(約17 bases),seeds會被延伸和固定。

  • LEADINGTRAILING:分別為去除read頭部和尾部的低質量(低于quality3)堿基數目。

  • SLIDINGWINDOW:跟隨兩個參數,分別是 <windowSize>為掃描“窗口”長度;<requiredQuality>為窗口堿基質量的平均閾值,低于此會被刪除。

  • MINLEN:設置最短reads數目。需要根據下游alignment軟件設定,比如Bowtie適用于短序列,比如50bp以下;而Bowtie2適用于50bp以上。TopHat 則根據實際使用Bowtie或者Bowtie2選擇。

FastQC

FastQC是用于對二代測序數據質量快速檢驗的工具,可以輸入fastq(fastq.gz)、sam或者bam文件。查看輸出結果解釋??梢月摵蟤ultiqc使用,查看多個qc的報告。
代碼示例:

echo "fastqc started at $(date)"
###method (3)
fastqc -o $dir/cmp/qc $dir/cmp/01raw_data/*gz
#multiqc *fastqc.zip --ignore *.html
echo "fastqc finished at $(date)"

cutadapter

cutadapt -q 30 -b CTGTCTCTTATACACATCTGACGCTGCCGACGA --minimum-length 20 --overlap=5 -o tmpl1.1.fastq --paired-output tmpl1.2.fastq SRR2920469_1.fastq.gz SRR2920469_2.fastq.gz

參考資料:

清洗二代測序數據
Trim Galore User Guide

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,117評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,860評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 177,128評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,291評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,025評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,421評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,477評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,642評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,177評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,970評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,157評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,717評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,410評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,821評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,053評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,896評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,157評論 2 375

推薦閱讀更多精彩內容