2019意猶未盡的基因組可視化IGV(一)

劉小澤寫于19.6.8
之前最開始學(xué)習(xí)IGV的時候?qū)戇^兩篇推文,當(dāng)時簡單做了了解,但有朋友說意猶未盡,嗯我也這么覺得,總覺得還是學(xué)的不夠。推薦閱讀:https://github.com/griffithlab/rnaseq_tutorial/wiki/IGV-Tutorial
本文不止是翻譯

就當(dāng)做是初次見面

做項(xiàng)目最后一般會得到幾個Excel表格,比如其中會有上下調(diào)基因,高表達(dá)低表達(dá)基因等,按照表格去找基因很麻煩并且不容易比較。因此,基因組瀏覽器是一個非常常用的功能,可以方便我們看看變異信息、可變剪切信息,上下游基因等等特性。目前開發(fā)了40多種瀏覽器,總體上有這么幾個特點(diǎn):針對高通量數(shù)據(jù)(尤其是為分析變異而測的數(shù)據(jù))、對大的bam文件進(jìn)行可視化、自己電腦上運(yùn)行保證數(shù)據(jù)私密性

我們的主要目標(biāo)是學(xué)習(xí)IGV,那么它到底能干什么?

  • 利用IGV可以對大型的數(shù)據(jù)集進(jìn)行可視化(例如TCGA、1000Genomes)
  • 可以整合多種類型的組學(xué)數(shù)據(jù)
  • 支持本地、云端的數(shù)據(jù)加載,有多種數(shù)據(jù)源。各有好處:使用本地數(shù)據(jù)不用上傳,使用云端數(shù)據(jù)不用下載整個數(shù)據(jù)集


使用IGV的基本步驟:

就像把大象塞進(jìn)冰箱需要三步一樣,使用IGV也很簡單:啟動=》選擇合適的基因組(這里一定要選合適,因?yàn)榧词挂粋€物種基因組版本不同,基因的坐標(biāo)也有區(qū)別)=》加載組學(xué)數(shù)據(jù)=》可視化探索(比如找SNVs、結(jié)構(gòu)變異、基因融合等)

通過這個教程,基本可以做到:

  • 瀏覽不同的組學(xué)數(shù)據(jù)
  • 快速探索定位基因組
  • 對比對結(jié)果進(jìn)行可視化
  • 肉眼找找SNP/SNV以及結(jié)構(gòu)變異

第一部分:熟悉IGV

IGV官網(wǎng):http://software.broadinstitute.org/software/igv/download

  • 首先先在右上角選擇基因組版本,默認(rèn)情況下會加載hg19,當(dāng)然可以自己下載其他基因組。然后點(diǎn)擊頂部的file ,選擇load from server ,這樣就會選擇額外的幾條track,比如顯示Ensembl基因名、GC含量等等,這一部分值得慢慢探索

  • 它的右側(cè)默認(rèn)顯示All ,表示全部染色體。可以選擇某一條特定染色體(這里先選擇Chr1)

  • 再向右的長框是具體的區(qū)間,輸入chr1:10,000-11,000 表示從10000bp開始數(shù)顯示1000bp長度的區(qū)間(注意是英文狀態(tài)的冒號),然后點(diǎn)擊Go

  • 側(cè)邊是track(意會:"軌道“、”跑道“),文件類型決定track的類型,track類型又決定了顯示的方式,如峰圖、線圖、柱狀圖等。不同的track被加載進(jìn)來時,它們是層層疊加的,可以利用左側(cè)的track名稱進(jìn)行區(qū)分。

  • 推薦的文件類型http://software.broadinstitute.org/software/igv/RecommendedFileFormats

    其中規(guī)定比對的數(shù)據(jù):SAM format (must be sorted), BAM format (must be sorted and indexed)

定位導(dǎo)航

粗略定位

比如上面輸入chr1:10,000-11,000 ,就將這1000bp的區(qū)間顯示出來,還將序列顯示為有顏色的長條,sequence頂部一行為堿基序列,其中A為綠色,C為藍(lán)色,G是橙色,T是紅色,這樣利用顏色方便了識別重復(fù)序列;

另外它的下方幾行是翻譯的氨基酸序列,其中綠色表示蛋氨酸,紅色為終止密碼子,通過點(diǎn)擊頂部那一行可以選擇隱藏或顯示氨基酸序列

如何看的更精細(xì)?

然后看右上角的+ ,可以縮放,讓我們看堿基看的更清楚,直到單堿基水平,它會先從基因開始顯示,當(dāng)放大到一定程度時,序列信息就展示出來(看來自官網(wǎng)的解釋:https://software.broadinstitute.org/software/igv/sequence_track_options)

注意:sequence旁邊的黑色粗箭頭是可以點(diǎn)擊的,點(diǎn)一下箭頭方向會發(fā)生改變。箭頭的方向表示當(dāng)前展示的鏈,箭頭向左為負(fù)鏈,會顯示互補(bǔ)堿基信息以及反向互補(bǔ)的翻譯信息

另外除了根據(jù)位置去定位,還支持根據(jù)基因名去定位

(只要之前添加了基因名的注釋track),例如直接在長條框中輸入BRCA1

另外,定位到基因后,還可以看看兩個相鄰基因有什么區(qū)別:

比如可以看到:BRCA1和NBR2兩個基因方向相反,BRCA1的第一個外顯子在最右側(cè)

基因是用線和條形描繪的

橫線表示內(nèi)含子區(qū)域,豎條表示外顯子區(qū)域,箭頭表示基因轉(zhuǎn)錄的方向或者說轉(zhuǎn)錄的鏈。高的豎條表示外顯子的CDS區(qū)域,矮的豎條是UTR。圖中表示的是3’=》5‘方向,基因也是在負(fù)鏈,5’UTR在左側(cè),3‘UTR在右側(cè)

(顏色不用管,都是自己可以設(shè)置的:右鍵track=》change track color)

再看一個例子:

(在biostar的解釋:https://www.biostars.org/p/105248/)

(關(guān)于基因結(jié)構(gòu):http://www.lxweimin.com/p/705a93f9db36)

結(jié)合IGV理解這句話:

外顯子與內(nèi)含子的鄰接部位是一段高度保守的序列:外顯子尾巴與下一個內(nèi)含子的頭部多數(shù)是GT,內(nèi)含子的尾巴與下一個外顯子的頭部多數(shù)是AG,可以簡單記做GT-AG法則,作為RNA剪切的識別信號

為檢索區(qū)域添加書簽

有時想保存當(dāng)前的搜索區(qū)域,有點(diǎn)像瀏覽器的書簽功能,可以利用RegionsRegion Navigator功能,當(dāng)進(jìn)行全局瀏覽時,可以邊看邊點(diǎn)擊add 來添加

下一篇開始用實(shí)際數(shù)據(jù)模擬演示


歡迎關(guān)注我們的公眾號~_~  
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個不拽術(shù)語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容