Juicer: 輔助基因組組裝

Juicer: 輔助基因組組裝

Juicer

導讀

本文主要對處理HiC數據的Juicer程序進行一個簡短的介紹,并展示如何利用Juicer進行基因組組裝中染色體掛載的第一步。

1. 介紹

算法介紹

Juicer 是一款能夠提供一鍵式分析Loop-Resolution的程序。

  • 特點
  1. 只需一次單擊,用戶就能夠處理terabase規模的Hi-C數據集
  2. 自動注釋LoopsDomains
  3. Juicer是一款開源的程序
  4. 與多個集群操作系統和Amazon Web Services兼容

2. 安裝

2.1. 環境要求

  • 運行 Juicer 的最低軟件要求是在WindowsLinuxMac OSX 上安裝有效的Java(版本 >= 1.8)。建議使用可用的最新 Java 版本,但請不要使用 Java Beta 版本。可以在sysreq找到運行 Java 的最低系統要求。

  • 要下載和安裝最新的 Java 運行時環境 (JRE),請訪問java

  • GNU CoreUtils;最新版本的 GNU coreutils 可以從coreutils下載。

  • Burrows-Wheeler Aligner (BWA),可以從BWA下載安裝。

上面的環境要求,基本在Linux服務器上都是已經配置完畢的,使用之前只需要檢查下Java和bwa的版本即可。

2.2. 安裝

下面的安裝環境是在Ubuntu系統上進行,bwa將采用conda安裝。

  1. 目錄建立
# 新建Juice目錄
mkdir juicer && cd juicer

# 新建參考基因組相關文件目錄
mkdir references 

# 新建樣本的序列文件和分析結果目錄
mkdir work  

# 新建參考基因組酶切圖譜目錄
mkdir restriction_sites  
目錄結構
  1. Juicer下載

這里需要注意,小伙伴們在Github上倉庫下載時,不要采用git clone的方式,因為這樣會拉取最新的版本,還處于開發中,存在許多錯誤,建議去Releases中下載1.6的版本

不會下載的小伙伴,可以私信小編獲取。

安裝jucier
  1. bwa安裝
# 新建conda 環境安裝
conda create -n juicer -c bioconda bwa -y

# 激活環境
conda activate jucier
  1. 配置jucier
# 構建scripts鏈接
ln -s juicer/CPU scripts  
# scripts 應該在juicer目錄下

# 切換目錄
cd scripts/common

# 下載 juicer_tools.1.9.9_jcuda.0.8.jar
wget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

# 創建符號鏈接
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

3. 實戰

下面將詳細介紹如何運行Juicer生成merged_nodups.txt文件,用于3D-DNA進行染色體掛載

  • 構建基因組索引
# 基因組放在jucier/reference 目錄下
bwa index genome.fa
  • 生成酶切圖譜文件
# 需要將 DpnII 換為 測序過程使用的酶
# genome 替換為 基因組的名字
python /home/juicer/misc/generate_site_positions.py DpnII genome /home/juicer/references/genome.fa

  • 生成染色體長度文件
# genome_DpnII.txt 文件由上一步生成
awk 'BEGIN{OFS="\t"}{print $1, $NF}'  genome_DpnII.txt > genome.chrom.sizes
  • fastq文件
# juicer/work 文件夾下創建fastq文件夾存放fastq文件
mkdir fastq

# 文件名稱需要整理如下格式
work
    └── fastq
        ├── Sample1_R1.fastq.gz 
        ├── Sample1_R2.fastq.gz 
        ├── Sample2_R1.fastq.gz 
        ├── Sample2_R2.fastq.gz 
        ├── Sample3_R1.fastq.gz 
        └── Sample3_R2.fastq.gz 
  • 運行
# nohup 命令會將程序掛在后臺運行
nohup /home/juicer/scripts/juicer.sh \
-z /home/juicer/references/genome.fa \
-p /home/juicer/restriction_sites/genome.chrom.sizes \
-y /home/juicer/restriction_sites/genome_DpnII.txt \
-s DpnII \
-d /home/juicer/work/ \
-D /home/juicer \
-t 40 > log.txt

# -z參數指定參考基因組fasta所在路徑,在該路徑下必須同時存在對應的bwa索引
# -p參數指定染色體長度文件;
# -y指定基因組酶切圖譜的路徑;
# -d指定樣本原始文件存放的路徑;
# -D指定軟件的安裝路徑,
# -t指定bwa比對使用的線程數,默認是使用全部線程。

結果

Juicer運行完成后主要有以下兩個目錄:

  • splits

splits目錄下存放的是中間結果,由于hi-C數據量很大,所以會將原始序列拆分成很多份,并行運算,加快速度。默認每份包含22.5M的reads, 當然這個可以通過-C參數調整,該參數指定拆分文件的行數,默認是90000000, 注意fastq文件4行代表一條序列,所以這個參數的值必須是4的倍數。拆分后序列的R1和R2端分別通過bwa比對基因組,然后合并,篩選嵌合體序列,去重復,生成預處理后的結果文件。

  • aligned

aligned目錄下存放的是最終結果,包含了可以導入juicebox的后綴為hic的圖譜文件, inter.hicinter_30.hic30表示通過MAPQ > 30進行過濾之后的結果。

其中"merged_nodups.txt"就是下一步3D-DNA的輸入文件之一。

本文由mdnice多平臺發布

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,076評論 2 375

推薦閱讀更多精彩內容