Juicer: 輔助基因組組裝
導讀
本文主要對處理HiC
數據的Juicer
程序進行一個簡短的介紹,并展示如何利用Juicer
進行基因組組裝中染色體掛載的第一步。
1. 介紹
Juicer 是一款能夠提供一鍵式分析Loop-Resolution
的程序。
- 特點
- 只需一次單擊,用戶就能夠處理
terabase
規模的Hi-C數據集 - 自動注釋
Loops
和Domains
-
Juicer
是一款開源的程序 - 與多個集群操作系統和Amazon Web Services兼容
2. 安裝
2.1. 環境要求
運行
Juicer
的最低軟件要求是在Windows
、Linux
和Mac OSX
上安裝有效的Java
(版本 >= 1.8)。建議使用可用的最新 Java 版本,但請不要使用 Java Beta 版本。可以在sysreq找到運行 Java 的最低系統要求。要下載和安裝最新的 Java 運行時環境 (JRE),請訪問java。
GNU CoreUtils;最新版本的 GNU coreutils 可以從coreutils下載。
Burrows-Wheeler Aligner (BWA),可以從BWA下載安裝。
上面的環境要求,基本在Linux服務器上都是已經配置完畢的,使用之前只需要檢查下Java和bwa的版本即可。
2.2. 安裝
下面的安裝環境是在Ubuntu
系統上進行,bwa
將采用conda
安裝。
- 目錄建立
# 新建Juice目錄
mkdir juicer && cd juicer
# 新建參考基因組相關文件目錄
mkdir references
# 新建樣本的序列文件和分析結果目錄
mkdir work
# 新建參考基因組酶切圖譜目錄
mkdir restriction_sites
-
Juicer
下載
這里需要注意,小伙伴們在Github上倉庫下載時,不要采用git clone
的方式,因為這樣會拉取最新的版本,還處于開發中,存在許多錯誤,建議去Releases
中下載1.6
的版本
不會下載的小伙伴,可以私信小編獲取。
-
bwa
安裝
# 新建conda 環境安裝
conda create -n juicer -c bioconda bwa -y
# 激活環境
conda activate jucier
- 配置
jucier
# 構建scripts鏈接
ln -s juicer/CPU scripts
# scripts 應該在juicer目錄下
# 切換目錄
cd scripts/common
# 下載 juicer_tools.1.9.9_jcuda.0.8.jar
wget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
# 創建符號鏈接
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
3. 實戰
下面將詳細介紹如何運行Juicer
生成merged_nodups.txt
文件,用于3D-DNA
進行染色體掛載
- 構建基因組索引
# 基因組放在jucier/reference 目錄下
bwa index genome.fa
- 生成酶切圖譜文件
# 需要將 DpnII 換為 測序過程使用的酶
# genome 替換為 基因組的名字
python /home/juicer/misc/generate_site_positions.py DpnII genome /home/juicer/references/genome.fa
- 生成染色體長度文件
# genome_DpnII.txt 文件由上一步生成
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes
-
fastq
文件
# juicer/work 文件夾下創建fastq文件夾存放fastq文件
mkdir fastq
# 文件名稱需要整理如下格式
work
└── fastq
├── Sample1_R1.fastq.gz
├── Sample1_R2.fastq.gz
├── Sample2_R1.fastq.gz
├── Sample2_R2.fastq.gz
├── Sample3_R1.fastq.gz
└── Sample3_R2.fastq.gz
- 運行
# nohup 命令會將程序掛在后臺運行
nohup /home/juicer/scripts/juicer.sh \
-z /home/juicer/references/genome.fa \
-p /home/juicer/restriction_sites/genome.chrom.sizes \
-y /home/juicer/restriction_sites/genome_DpnII.txt \
-s DpnII \
-d /home/juicer/work/ \
-D /home/juicer \
-t 40 > log.txt
# -z參數指定參考基因組fasta所在路徑,在該路徑下必須同時存在對應的bwa索引
# -p參數指定染色體長度文件;
# -y指定基因組酶切圖譜的路徑;
# -d指定樣本原始文件存放的路徑;
# -D指定軟件的安裝路徑,
# -t指定bwa比對使用的線程數,默認是使用全部線程。
結果
Juicer
運行完成后主要有以下兩個目錄:
- splits
splits
目錄下存放的是中間結果,由于hi-C數據量很大,所以會將原始序列拆分成很多份,并行運算,加快速度。默認每份包含22.5M的reads, 當然這個可以通過-C
參數調整,該參數指定拆分文件的行數,默認是90000000, 注意fastq文件4行代表一條序列,所以這個參數的值必須是4的倍數。拆分后序列的R1和R2端分別通過bwa比對基因組,然后合并,篩選嵌合體序列,去重復,生成預處理后的結果文件。
- aligned
aligned
目錄下存放的是最終結果,包含了可以導入juicebox
的后綴為hic
的圖譜文件, inter.hic
和inter_30.hic
, 30表示通過MAPQ > 30
進行過濾之后的結果。
其中"merged_nodups.txt
"就是下一步3D-DNA的輸入文件之一。
本文由mdnice多平臺發布