RNA velocity分析練習(一)文件下載以及預處理

目前有多種方法可以進行RNA velocity的分析:

  1. scVelo(參考文章:單細胞轉錄組數據分析|| scVelo 教程:RNA速率分析工具
  2. velocyto (官網:Welcome to velocyto.py!
  3. Seurat (參考文章:用Seurat做RNA Velocity

在前一篇的文獻學習里(RNA velocity of single cells文獻學習),作者使用的是velocyto軟件,也就是上面的第二個軟件進行分析的,所以我也主要學習這個軟件的使用。作者的詳細代碼見:here,里面有R和python兩種版本。

由于RNA velocity分析的前提,是要我們從單細胞RNA-seq的數據里區分出未成熟mRNA(unspliced)和成熟的mRNA(spliced),所以你需要從fastq文件開始,與基因組進行對比后得到sam文件,從sam文件轉成bam,再從bam文件里提取這些信息,最后你會得到.loom為后綴的文件,這個文件才是我們需要的。

你可以在這個網站(http://velocyto.org/velocyto.py/tutorial/cli.html)里學習如何從bam文件里提取我們需要的信息,你可以使用10X、SMART-seq2、dropseq等平臺測序得到的fastq文件,每一種情況都有詳細的說明。

這次練習的原始數據是GSE99933,有768個文件,這個project是應用SMART-Seq2平臺進行測序的。

懶得從fastq文件走一遍完整流程的童鞋可以直接下載bam文件:
http://pklab.med.harvard.edu/velocyto/chromaffin/bams.tar
或者你可以直接下載loom文件進行分析:
http://pklab.med.harvard.edu/velocyto/chromaffin/dat.rds

(一)fastq文件下載以及文件名的批量修改

關于如何批量下載fastq文件,如何比對,如何從sam文件轉成bam文件,我在單細胞測序實戰(第一部分)寫的非常詳細。這里一共768個fastq文件,大約是12G左右。

(其實批量修改文件名不是必要的,完全可以跳過這一步,但是不知道為什么自己突發奇想要改名,可能是看著SRR文件名不舒服吧。。。想節約時間的童鞋可以直接跳到fastqc步驟)

下載fastq文件后,文件名都是SRR開頭的,那么我想把前綴改成細胞的編號:E13.5_E之類的,應該怎么弄?首先你要先拿到細胞編號的list,在GEO頁面里:

點擊“Accession list truncated, click here to browse through all related public accessions”

在新頁面里,點擊“Export”:

選擇All search results

現在你下載了所有樣品的信息,是一個csv表,用excel打開是這樣的:

用查找/替換功能把[single cell RNA-seq]替換成空白(注意是空白,不是空格):

從這個表里提取第二列的細胞編號:

$ awk -F"," '{print $2}' sample.csv>> cell_name.txt
$ head cell_name.txt 
E12.5_A1
E12.5_A2
E12.5_A3
E12.5_A4
E12.5_A5
E12.5_A6
E12.5_A7
E12.5_A8
E12.5_A9
E12.5_A10

在win10系統下批量修改文件名,看視頻:here或者windows如何批量修改文件名

修改后的fastq文件的名字就變成了:

(二)fastqc

隨便抽取幾個fastq文件看一下:

整體的測序質量看起來都不錯

(三)比對

進入fastq文件夾里進行比對:

$ ls *.gz | while read i;do hisat2 -p 10 -x /media/yanfang/FYWD/RNA_seq/ref_genome/index/mm10/genome -U $i -S /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_sam/${i}.sam;done

這一步要過夜(大概10個小時多一點),因為是用自己的電腦跑的,所以比較慢。生成的sam文件:

(四)生成bam文件

可以先看一下后續分析要去的bam文件是什么樣的:

需要的bam文件是要sort后的,所以一定要注意!
$ ls *.fastq.gz.sam | while read i ;do (samtools sort -O bam -@ 10 -o /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_bam/$(basename ${i} ".fastq.gz.sam").bam ${i});done

(五)下載mouse_repeat_msk.gtf

除了mm10_annotation.gtf以外(可在https://www.gencodegenes.org/下載),我們還需要一個文件進行后續的分析,這個文件叫repeat_msk.gtf,你可以在這個網站:here下載到:

選項都填好,點擊左下角“get output”。就行了。

這個gtf文件是幫助我們去除表達的重復元素(expressed repetitive elements),因為這些reads可能在下游分析中構成一個混淆因素。

到此,生成loom文件的必需文件就都準備齊全了。下一篇會介紹生成loom文件需要哪些軟件。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯系作者。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380