參考基因組和注釋文件
Posted on 2018-06-30 21:27 微涼charles 閱讀(1240) 評論(0) 編輯 收藏
作業(yè)要求:
在UCSC下載hg19參考基因組,我博客有詳細說明,從gencode數(shù)據(jù)庫下載基因注釋文件,并且用IGV去查看你感興趣的基因的結(jié)構(gòu),比如TP53,KRAS,EGFR等等。
作業(yè),截圖幾個基因的IGV可視化結(jié)構(gòu)!還可以下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結(jié)構(gòu)。了解IGV常識。
一. 參考基因組--下載
地址:UCSC https://genome.ucsc.edu/
(1)、進入UCSC---選擇Downloads---genomic data---human---GRCh37/hg19---Full data set,下拉,找到chromFa.tar.gz,右擊chromFa.tar.gz,選擇“復制鏈接地址”
點擊 Full data set后,有各類文件的說明文檔
(2)、終端命令行操作
[](javascript:void(0); "復制代碼")
<pre style="margin: 0px 0px 0px 22px; white-space: pre-wrap; overflow-wrap: break-word; font-size: 12px !important; font-family: "Courier New" !important;"> 1 # 切換到要存放參考基因組的目錄
2 nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz # wget后面跟的是參考基因組的下載地址
6
7 # 解壓下載后的文件
8 cat .fa > hg19.fa 12
13 #最后刪除其他無用的文件 14 $ rm chr.fa</pre>
](javascript:void(0); "復制代碼")
** 二. 注釋文件--下載**
(1)、進入Gencode數(shù)據(jù)庫---Data---Human---GRCh37-mapped Release---選擇2016年10月份發(fā)布的最新注釋版本“gencode.v26lift37.annotation.gtf.gz”
鼠標右擊,“復制鏈接地址”
(2)、命令行批量下載
<pre style="margin: 0px 0px 0px 22px; white-space: pre-wrap; overflow-wrap: break-word; font-size: 12px !important; font-family: "Courier New" !important;">1 # 用axel批量下載 2 gzip -d gencode.v26lift37.annotation.gtf.gz 5 # 與下載的hg19參考基因組放在一起 6 $ mv genconde.v26lift37.annotation.gtf ./Reference/Human/hg19</pre>
補充:GTF和GFF之間的區(qū)別
數(shù)據(jù)結(jié)構(gòu):都是由9列構(gòu)成,分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同。
GFF第9列:都是以鍵值對的形式,鍵值之間用“=”連接,不同屬性之間用“;”分隔,都是以ID這個屬性開始。下圖中有兩個ID,說明是不同的序列。
GTF第9列:同樣以鍵值對的形式,鍵值之間是以空格區(qū)分,值用雙引號括起來;不同屬性之間用“;”分隔;開頭必須是geneid, transciptid兩個屬性。[圖片上傳失敗...(image-9af276-1541836318580)]
三. 基因組瀏覽器:IGV
Integrative Genomics Viewer(IGV)是一種探索大型綜合基因組數(shù)據(jù)的高性能交互式可視化工具。它支持各種各樣的數(shù)據(jù)類型,包括基于芯片測序、二代測序數(shù)據(jù)和基因組注釋數(shù)據(jù)等。
** IGV下載**
IGV使用
0、初始化窗口
1、載入基因組,選擇Genome標簽,load我們之前已經(jīng)下載好的hg19.fa基因組。
2、載入基因組注釋,但是在載入之前需要將gff3進行排序,選擇Tools-Run igvtools,進入以下igvtools窗口:
3、獲得sorted文件:command選擇sort,再選擇輸入的注釋文件,點擊Run,就可以生成sorted.gff3文件。
4、通過file->load from file...選擇sorted文件,打開。選擇區(qū)域的大小,來看某些基因的信息,藍色的粗線條就是代表基因。說到底,IGV就是一個將基因組及其注釋信息可視化的工具。 (下圖是載入基因組和注釋信息后的窗口)四. 理論知識
RNA-seq數(shù)據(jù)分析的通用套路是:
1、檢測測序數(shù)據(jù)的質(zhì)量,如果需要,對數(shù)據(jù)進行預處理,去掉接頭,去掉質(zhì)量差的數(shù)據(jù)等等
2、將所有數(shù)據(jù)回帖到genome,根據(jù)結(jié)果,進行新基因或轉(zhuǎn)錄本的鑒定,然后對轉(zhuǎn)錄數(shù)據(jù)進行定量,并進行差異表達分析。也可跳過對新基因和新轉(zhuǎn)錄本的分析,只對已知的基因和轉(zhuǎn)錄本進行定量。
3、如果沒有參考genome數(shù)據(jù),可以供transcritome數(shù)據(jù)代替。
4、如果參考轉(zhuǎn)錄組數(shù)據(jù)也沒有,可以直接對RNA-seq數(shù)據(jù)進行從頭組裝,注釋,作為參考轉(zhuǎn)錄組。
圖片源于《RNA-seq Data Analysis》
把高通量測序得到的reads回帖到參考基因組上,既是進行后續(xù)基因表達定量和差異表達分析的基礎,同時也是可變剪接分析、SNP、InDel分析以及測試數(shù)據(jù)質(zhì)量控制的一部分
回帖常用軟件:HISAT2, STAR
參考基因組
參考基因組的實質(zhì):就是某一物種的基因組序列,因此是fasta格式。
三大網(wǎng)站:
1.NCBI (https://www.ncbi.nlm.nih.gov/grc)
2.UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)
3.Ensemble (http://asia.ensembl.org/index.html?redirect=no)
三大網(wǎng)站的ftp地址:
ensembl : ftp://ftp.ensembl.org/pub
NCBI : ftp://ftp.ncbi.nih.gov/genomes/
UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath
推薦:去Ensemble下載參考序列,(UCSC很久沒更新)
目前最常用的人的參考基因組版本如下(Jimmy總結(jié)):
|
NCBI
|
UCSC
|
Ensemble
|
|
GRCh36
|
hg18
|
ENSEMBL release_52
|
|
GRCh37
|
hg19
|
ENSEMBL release_59/61/64/68/69/75
|
|
GRCh38
|
hg38
|
ENSEMBL release_76/77/78/80/81/8
|
注釋文件
就是基因組的說明書。告訴我們哪些序列是編碼蛋白的基因,哪些是非編碼基因,外顯子、內(nèi)含子、UTR等的位置等等。注釋文件在以上三個提供參考基因組的網(wǎng)站中都有提供,比如Ensemble。但是現(xiàn)在最權(quán)威的人類和小鼠基因組的注釋還屬Gencode數(shù)據(jù)庫。
IGV軟件界面簡介
主窗口布局:
1.工具欄tool bar
2.紅色框顯示當前顯示的染色體的位置,當縮小顯示范圍到整個染色體范圍時,紅色框消失。
3.顯示當前查看的染色體序列的長度
4.該窗口顯示測序樣品的測序情況。每一條track代表一個樣品或者一次實驗,顯示的情況包括甲基化、表達水平、拷貝數(shù),堿基突變等信息。
5.參考基因組信息
6.track名(即樣品或者實驗名)
7.Attribute names屬性名,即序列信息,如indel、甲基化等。
更多的使用方法可查看IGV User Guide
參考資料
轉(zhuǎn)錄組入門(1)-作業(yè)-轉(zhuǎn)錄組-生信技能樹 http://www.biotrainee.com/thread-1796-1-1.html
HOPTOP轉(zhuǎn)錄組入門(一)布置運行環(huán)境-轉(zhuǎn)錄組-生信技能樹 http://www.biotrainee.com/thread-1800-1-1.html
RNA-seq基礎入門傳送門-轉(zhuǎn)錄組-生信技能樹 http://www.biotrainee.com/thread-1750-1-1.html
浙大植物學小白的轉(zhuǎn)錄組筆記 http://www.360doc.com/content/17/0911/22/46164085_686360709.shtml