本文可在http://xuzhougeng.top/免費閱讀原文
使用二代數據或三代數據得到contig后,下一步就是將contig提升到染色體水平。有很多策略可以做到這一點,比如說遺傳圖譜,BioNano(看運氣), HiC, 參考近源物種。
如果利用HiC進行準染色體水平,那么目前常見的組裝軟件有下面幾個
- HiRise: 2015年后的GitHub就不再更新
- LACHESIS: 發表在NBT,2017年后不再更新
- SALSA: 發表在BMC genomics, 仍在更新中
- 3D-DNA: 發表在science,仍在更新中
- ALLHiC: 發表在Nature Plants, 用于解決植物多倍體組裝問題
對于二倍體物種而言,目前3D-DNA應該是組裝效果最好的一個軟件。
工作流程
使用3D-DNA做基因組組裝的整體流程如下圖,分別為組裝,Juicer分析Hi-C數據,3D-DNA進行scaffolding,使用JBAT對組裝結果進行手工糾正,最終得到準染色體水平的基因組。
總體流程
基因組組裝可以是二代測序方法,也可以是三代測序組裝方法,總之會得到contig。
Juicer的工作流程見下圖,輸入原始的fastq文件,處理得到中間文件.hic, 之后對.hic文件用于下游分析,包括
- Arrowhead: 尋找存在關聯的區域
- HiCCUPS: 分析局部富集peaks
- MotifFinder: 用于錨定peaks
- Persons: 計算觀測/期望的皮爾森相關系數矩陣
- Eigenvector: 確定分隔
juicer工作流程
之后Juicer的輸出結果給3D-DNA,分析流程見下圖。3D-DNA先根據Hi-C數據分析contig中的misjoin,對其進行糾錯。之后通過四步,分別是Polish, Split, Seal和Merge, 得到最終的基因組序列
3d-dna流程
軟件安裝
在安裝之前,確保服務器上有了下面這些依賴軟件工具
- LastZ(僅在雜合基因組的二倍體模式下使用)
- Java >= 1.7
- GNU Awk >= 4.02
- GNU coreutils sort > 8.11
- Python >= 2.7
- scipy, numpy, matplotlib
- GNU Parallel >=20150322 (不必要,但是強力推薦)
- bwa
我們需要安裝兩個軟件,一個是3D-DNA,另一個是juicer。
CPU版本的juicer安裝
mkdir -p ~/opt/biosoft/
cd ~/opt/biosoft
git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
然后用~/opt/biosoft/juicer/scripts/juicer.sh -h
檢查是否有幫助信息輸出
3D-DNA安裝也很容易,只需要從Github上將內容克隆到本地即可
cd ~/opt/biosoft
git clone https://github.com/theaidenlab/3d-dna.git
用sh ~/opt/biosoft/3d-dna/run-asm-pipeline.sh -h
查看是否有幫助文檔輸出。
參數詳解
以CPU版本的為例,juicer.sh的參數如下
Usage: juicer.sh [-g genomeID] [-d topDir] [-s site] [-a about] [-R end]
[-S stage] [-p chrom.sizes path] [-y restriction site file]
[-z reference genome file] [-D Juicer scripts directory]
[-b ligation] [-t threads] [-r] [-h] [-f] [-j]
參數說明