使用cBioPortal進行復雜的癌癥基因組和臨床profiles整合分析(Y大寬原創,轉載需要說明)
主要來自于doi:10.1158/2159-8290.CD-12-0095(http://sci-hub.tw/http://doi.org/10.1126/scisignal.2004088)和doi:10.1126/scisignal.2004088
摘要:cBioPortal提供了這樣一種網絡資源:探索,可視化和分析多維度癌癥基因組數據。這個門戶網站把癌組織和細胞系還原成分子表達譜數據,再到可以理解的遺傳的(基因的),表觀遺傳的,gene expression和蛋白events。查詢交互界面整合用戶的數據可以使研究者交互探索不同samples,genes,pathways的遺傳學上的改變,假如暗含的數據可行,還可以聯系到臨床結果。這個網站還提供gene水平的圖形總結,從多平臺,網絡可視化分析,生存分析,病人為中心的查詢,和軟件編程入口。直觀的網站交互界面使得復雜的癌癥基因組profiles對沒有生物信息學專業只是的研究者和臨床工作者可行,這樣就促進了生物學發現。這里,我們提供一個可操作的guide來分析和可視化cBioPortal的特征(對癌癥基因集的)。
Introduction
大規模的癌癥基因組計劃,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在從多技術平臺產生更多的癌癥基因組數據。這使得這些數據的整合,探索和分析越來越具有挑戰性,尤其是對于沒有計算機背景知識的科學家來說。cBioPortal是專門設計來降低對這些復雜數據的接近門檻,因此,促進基因組數據向新的生物學視野,治療和臨床特征的轉變。
這個網站,促進多維度癌癥基因集數據的探索,可以允許跨gene,樣本和數據類型的可視化分析。用戶可以可視化一個癌癥研究中多樣本間基因改變的模式,并比較點多癌癥研究中gene改變頻率,或者在一個個體腫瘤樣本中總結概括所有的相關的基因組改變。這個網站也支持生物通路探索,生存分析,基因改變間的相互獨特性分析,可選擇性的數據下載,編程接口和可以用于發表的可視化總結。
整合進cBioPortal的基因組數據類型包括體細胞突變,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表達,DNA甲基化,蛋白質富集,磷酸化蛋白富集。目前,網站包含從10個出版的癌癥研究的數據集,包括癌癥細胞系百科全書,多于20個研究在TCGA流程。對沒有一個腫瘤樣本,數據是可以從多基因組數據分析平臺可獲取的。網站的簡化概念是在基因水平整合多種數據類型,然后詢問每個sample中專門的生物學事件的呈現(例如,基因突變,基因純和刪除,基因擴增,上調或下調的mRNA或miRNA),蛋白的上下調等。這使得用戶可以查詢每個gene和每個樣本的的遺傳學改變,并檢驗復發(某些特殊癌癥)。
需要的設備
個人計算機,可以聯網,已經安裝java
注意:一下瀏覽器已經被實驗可行,google chrome,firefox,safari,ie9.0
需要安裝adobe flash player http://get.adobe.com/flashplayer/
Java 可以下載http://www.java.com/getjava/
Adobe pdf 閱讀器http://get.adobe.com/reader/
Vector graphic editor
這個可以可視化和編輯在cBioPortal下載的SVG file(OncoPrints)。支持這種軟件的是Adobe Illustrator (http://www.adobe.com/products/illustrator.html) and Inkscape (http://inkscape.org/)
說明
cBioPortal的基因datasets可以獲取或下載,通過使用交互web 界面,也可以通過程序下載。
用戶可以選擇查詢單一癌癥研究或across癌癥研究。也可以查看個體癌癥樣本的相關的基因改變。
查詢個人癌癥研究
在單一癌癥查詢中,用戶可以探索,可視化,選擇的gene中的基因改變,包括所有選擇的samples中的這些gene的改變之間的關系,和同一個gene 在不同數據類型之間的關系。執行單個癌癥研究的查詢需要四步,見下圖1。總體過程和特殊的查詢都在下面顯示了。
用戶可以從超過165個cancer studies進行選擇(這里文章剛發表的時候是25個研究,可見網站發展只迅速)。
這一項的選擇和之前也有變化,上面劃勾的兩個是默認,一個是突變,一個是推斷的gene copy數變異。當可選的時候,相關的mRNA或miRNA表達或相關的蛋白和磷酸化蛋白富集數據也可以被選擇。蛋白和磷酸化蛋白數據基于的是reverse phase protein array(RPPA)實驗。對于mRNA或miRNA數據和蛋白,磷酸化蛋白數據,z 分數是從表達值預先計算。用戶可以自定義閾值或使用默認值(偏離均值2 SDs)。mRNA的z分數由每個sample決定,是通過比較一個gene的Mrna表達值相對參考population中的分布(可以代表這個gene的典型分布)。如果正常的臨近組織中的表達數據可以獲得,這些數據就會被用來作為reference population。否則,所有腫瘤的表達值二倍于這個gene的被使用。miRNA表達譜或蛋白豐度的z分數由每個sample決定,通過比較各自的所有樣本的miRNA或蛋白數據。
定義上面這個case sets分析的時候,缺省選擇是match選擇的基因表達譜。例如,有sequencing data 的cases會被選擇,假如只查詢突變的話。然而,用戶可以通過下拉菜單改變這個選擇,這個單是有可獲得的數據定義的(例如,tumors with mutations,CAN data,gene expression,RPPA data)或由已知的腫瘤亞型決定。用戶可以輸入感興趣的特殊的cases,通過選擇“user-defined case list”或建立一個用戶定義的case set基于臨床特征,這個在“build case set”對話中。
當輸入gene sets分析的時候,用戶可以手工輸入HUGO gene symbols,Entrez gene ids,gene aliase或從預先定義的自己感興趣的gene sets或pathways中選擇。如果對一個給定的cancer 研究,循環的gene列表可以獲得,例如,在mutsig中的不斷改變的突變genes或GSITIC中不斷改變的突變genes,那么用戶也可以從這些列表中選擇genes,當然也可以使用這些列表構建gene sets或從這寫列表中手動添加genes。
Fig. 1. Performing a query of a single cancer study The four steps to query genomic data in the cBioPortal for Cancer Genomics for a single cancer study. The query page is accessed from the site's home page. All queries must include at least one gene. The query shown is the one used to generate the results shown in Figs. 2and 3.
查看和結果解讀
下面是我自己的結果。Liver cancer 所用gene是投稿的五個gene
下面這個是原文中的圖
Fig. 2. The OncoPrint tab The example shows a visual summary of the different mechanisms of RB pathway alteration
across a set of glioblastoma samples based on a query of the three genes CDKN2A, CDK4,and RB1. The OncoPrint tab summarizes genomic alterations in all queried genes across a sample set. Each row represents a gene, and each column represents a tumor sample. Red bars indicate gene amplifications, blue bars are homozygous deletions, and green squares are
nonsynonymous mutations.
第一個面板oncoprint
行代表gene,列代表samples。圖標和顏色代表代表不同的基因型改變,包括突變,CNAs(amplifications擴增,homozygous deletions純合子缺失),基因或蛋白豐度改變。把鼠標放到每一個小標志上,可以看到關于caseID(代表一個病人sample或cell line)等的詳細信息,點擊樣本號可以進入該sample的詳細信息,包括年齡性別還有gene等詳細情況。對于突變evens,這顯示了氨基酸的改變。默認情況下,cases按alterations進行排序。用戶可以重新排序,比如字母,caseID,等。用戶也可以選擇移除未改變的cases從可視化圖中。通過可視化一系列cases中的gene改變,oncoprints可以幫助鑒定比如gene sets中的相斥或共發生事件。
上面這個例子中,這三個genesCDKN2A,CDK4,RB1,。65cases(71%)在這三個genes中至少有一個發生了改變。每個gene的突變頻率都顯示出來了。對于CDKN2A來說,大多數的改變是純合子缺失,CDK4是擴增。RB1相關的包括1個純合子缺失和mutations。這三個gene的改變在samples中的分布幾乎是相互排斥的狀態,這可以進行統計學分析和用mutual exclusivity tab進行可視化。后面會解釋這個面板。
-1.一旦submit按鈕按下,oncoprint結果會自動顯示。
-2.如果genes不適合window,會有水平滑動條。
-3.為了讓oncoprint更緊湊,有三個選擇可以進行自定義,(i)使用zoon bar進行尺度縮小放大(ii)通過選擇view下去反選“show unaltered cases”移除沒有改變的cases(iii)反選view下的show whitespace between columns移除samples之間的gaps。如下圖
-4. 在sort中改變顯示順序5
-5.可以輸出oncoprint,選擇下載成xml文件,in scalable vector graphic(SVG)格式
-6.若要獲得額外的詳細信息,那就動下你的鼠標到小標志上面吧。
-7.如果想修正或開始查詢,選擇結果面板上的“modify query”
第二個面板Mutual exclusivity
下面這是新版查詢結果(2017.10.03)
下面是原始文章中的
Fig. 3. The Mutual Exclusivity tab The example shows that genes that alter RB signaling in glioblastoma have a tendency toward mutual exclusivity. This tab provides summary statistics on mutual exclusivity and co-occurrence of genomic alterations in each pair of query genes. In this example, all three pairs have a tendency toward mutual exclusivity. Although the CDK4-RB1 pair has the strongest tendency toward mutual exclusivity (dark blue background), the relationship is not statistically significant (P = 0.11). The mutual exclusivity is significant for the other two gene pairs (P < 0.05, red outline). The P values are determined by a Fisher's exact test with the null hypothesis that the frequency of occurrence of a pair of alterations in two genes is proportional to their uncorrelated occurrence in each gene.
癌癥中的生理過程或pathways經常通過不同的genes或多個不同的機制從而失調。Mutual exclusivity(互斥)的概念可以用了鑒定預先不知道的機制,而這個機制可能助于癌癥發生和癌癥進展。在互斥中,和某一特殊癌癥相關的genes傾向于在一系列癌癥中互斥。也就是說,每一種tumor很可能只有一種genetic events。相反的狀態(co-occurrence)是,同一個癌癥sample中,genetic 改變發生在很多genes中。我們的網站計算一系列簡單的統計學來鑒定互斥或共發生的模式。對于每對查詢的gene(G1和G2),portal計算一個odds ratio(比值比),這個比值比揭示這兩個genes在選擇的cases中是相互排斥還是共發生。公式如下:
A代表兩個genes都發生改變的cases數目
B代表G1改變G2沒變的cases數目
C代表G2改變G1沒變的cases數目
D代表兩者都沒發生改變的cases數目
然后把每一對genes指派到五個范疇中的一個,預示互斥或共表達,或沒聯系。分析的說明已經提供了。為了鑒定每對gene pair的關系的重要性,網站執行費希爾精確檢驗。
使用的查詢參數和oncoprints中描述的一樣。互斥分析顯示了選擇的三個gene傾向于互斥的方式存在,但是這種模式只對CDKN2A和CDK4,CDKN2A和RB1合適,對CDK4和RB1不合適,這可能是因為樣本小。這適合GBM中RB信號通路的解釋。RB信號通路可以,通過RB1本身的去激活(通過圖表或純合子缺失)而導致RB信號通路失活,通過擴增激活CDK4(這個CDK可以一直RB1活性),或通過CDK抑制劑p16的去激活(缺失或突變),而這個抑制劑有CDKN2A編碼。這樣,這些genes中的單個gene的改變足夠讓RBpathway失活,這就是互斥分析所展示的。
第三個面板plots
cBioPortal提供了集中不同的ways來可視化discrete genetic events(CNAa或突變),和連續的events,比如關于mRNA或蛋白豐度的data,或DNA甲基化數據。
對于query中定義的單個gene,portal可以產生不同的plots,依賴于數據的可獲得性。
mRNA vs copy-number選項展示了box-and-whisker plot來顯示mRNA表達,數據來源與用戶選擇的每個樣本的數據源。拷貝數狀態可以純合子刪除,雜合子刪除,二倍體,gained(意味著相對少copies的擴增事件),擴增(意味這很多拷貝的擴增事件)。Mrna vs DNA 甲基化選項展示了mRNA表達譜相對于所有選擇的samples的DNA甲基化的散點圖。甲基化貝塔值用來評估CpG locus的甲基化水平,使用的是密度比率,在甲基化和未甲基化位點之間的。RPPA蛋白水平vs mRNA選項顯示的是某個gene的蛋白豐度和mRNA豐度的比較(所有選擇的samples中)。
Genes和data types選項(現在在左側)通過下拉菜單選擇,并且只有適合當前數據的類型才會出現。所有的plots可以作為PDF輸出用于出版。
下面這個例子中用的是顯示查詢選項ERBB2的分析,這是一個在colon和rectum中已知的促癌gene,編碼的是表皮生長因子受體。
The example shows ERBB2 mRNA expression is increased in samples with DNA amplification, and ERBB2 protein abundance is higher in samples with increased mRNA. (A) A plot showing the relationship between ERBB2 mRNA abundance and CNA in the ERBB2 gene in tumors from the selected cancer study. The “x”s indicate individual tumors, and the circles indicate tumors with missense mutations. (B) A plot showing the relationship between the abudance of the ERBB2 protein and mRNA in samples from the selected cancer study. Homdel, homozygously deleted; Hetloss, heterozygously deleted; Diploid, two alleles present; Gain, low-level gene amplification event; Amp, high-level gene amplification event; Mutated, nonsynonymous mutation; Normal, no mutation or CNA present.
ERBB2在colorectal癌癥samples中amplified。上圖結果顯示,ERBB2 mRNA在ERBB2擴增的samples中是增加的fig4A。并且,mRNA最高的ERBB2tumors有最高數量的ERBB2蛋白豐度(Fig.4B)。
具體步驟如下
-1.執行Fig4中的條件,submit
-2.選擇plots 面板
-3.在第一個Data type菜單選擇“Mrna expression(microarray)”
改進:在horizontal axis中的profile type中選copy number
Profile name選擇putative copy-number alternation from GSITIC
-4.第二個data type 菜單選擇“putative copy-number alternations from GISTIC”
改進:在vertical axis中,profile type選Mrna
Profile name 選相應的即可
-5.在plot type menu中選擇“Mrna v copy number”
改進:沒有這一項了,圖可以自動生成
-6.按下箭頭可以產生fig4A
改進:箭頭可以改變橫縱坐標
-7.可以輸出為PDF格式
-8.plot type 菜單可以選擇“RPPA protein level v. mRNA”
改進:這個沒有了,都在profile type里
-9.按arrow按鈕可以產生Fig.4B
注意:如果組合不能被plot被選擇,會有錯誤信息。
改進:現在不能組合,單獨生成
第四個面板mutations突變
這個面板提供兩個細節,一個是圖形總結一個是用戶可自定義修改的table,這都是關于每個query gene條件下鑒定的所有的all nonsynonymous mutations.圖形展示的是在pfam 蛋白域(由經典的基因isoform編碼)的context中所有的的位置和頻率。所有的DNA突變被標準化到canonical RefSeq isoform(using Oncotator, http://www.broadinstitute.org/oncotator/)。當一個DNA 突變僅影響到非經典isoforms,這個圖表就不被包括在圖形中。將來的版本將提供一個專門的表格來記錄這種信息。
圖的下面是所有非同突變的表。這個table,可以進行分類和篩選,如果data可以獲取,那有下面信息會被提供:每個sample的caseID(可以超鏈接到病人view page,包含突變信息);氨基酸改變,突變的類型(missense錯義突變,nonsense無義突變,splice site剪切位點,frameshift insertion or deletion框移插入或缺失,in-frame insertion or deletion框內插入或缺失,不終止nonstop,不開始nonstart).COMIC(Catalogue of somatic mutations in cancer)中這個位置的突變數目。錯義突變的預測的功能改變(可以超鏈接到mutation assessor),link到3D結構帶有突變高亮(超鏈接到mutation assessor),突變狀態(體細胞或生殖細胞-生殖細胞圖表目前只提供某些研究中BRCA1和BRCA2),已經證實的狀態(有效或未知),sample被sequenced和突變鑒定的序列中心,這種tumor中突變的等位基因頻率,匹配的normal sample中突變的等位基因頻率,確切的基因組位置(染色體,start,end,reference allele,variant allele),突變的和參考的等位基因reads(在tumor和normal sample的sequencing 結果中發現的突變和reference alleles的數目),受影響的isoform的信息。最后這三個默認不顯示,但可以設置顯示。用戶可以perform 搜表中的任何text。
Fig. 5. The Mutations tab
To generate these results, the query was limited to mutations for ERBB2 in the indicated cancer study. Four of the 10 ERBB2 mutations in colorectal cancer occur in a hotspot in the kinase domain. (A) The graphical view shows the Pfam protein domains and the positions of specific mutations. The length of the line connecting the mutation annotation to the protein is indicative of the number of samples that have the mutation. The most recurrent mutations are labeled in the graphical view. (B) The tabular view provides additional information about all mutations in each query gene.
實例中展示的ERBB2的分析,用的是colon和rectum adenocarcinoma only sequenced tumors。這個圖顯示,在colorectal 癌癥samples中,有10個ERBB2非同義突變,其中四個是V842I在kinase domain,這顯示了這是一個蛋白激活熱點。從這個表中,激酶domain圖表在氨基酸755,777,和842已經在幾種其他癌癥studies中被觀測到。(看氨基酸位點可以鼠標放圖上)
具體步驟如下
-1,執行Fig.5的搜索條件
-2.選擇mutation tab
-3.鼠標劃過代表蛋白domains的顏色區域,view關于這個domain的細節和他的開始和結束氨基酸殘基(這個蛋白質sequence)
-4.鼠標劃過蛋白序列圖上的圓圈就是那個綠點,看具體的突變信息。連接circle到蛋白的線的高度顯示了突變的頻率。突變頻率最高的以他的氨基酸改標注,例如那個v842I.
-5.通過使用“columns”可以自定義table中的顯示,選擇想顯示的,反選hide的。
-6.使用上下箭頭可以對data進行排序(根據column值)
-7.follow caseID超鏈接,可以得到關于tumor sample的細節(包含突變信息)
-8.使用瀏覽器后退按鈕可以回到mutations tab。
-9.鼠標劃過cosmic列的值,可以得到這個殘基的突變頻率和個體信息
-10.鼠標劃過FIS列的值,追隨超鏈接到mutation assessor或mutiple sequence alignment。
-11.點擊3D 可以鏈接到3D蛋白結構,突變的氨基酸高亮顯示,使用瀏覽器back可以回到mutation tab。
-12.搜索框內輸入“V842I”(沒有引號),可以僅顯示V842I突變。
-13.若想再次全部展示,把12搜索框中輸入的刪除即可。
第五個面板 protein changes
蛋白質和磷酸化蛋白data在protein changes tab可以獲得。來自RPPA平臺的大規模蛋白組數據有12個TCGA cancer studies在網站可以獲得(table s1)。如之前描述的,對于查詢gene的蛋白質豐度對mRNA的散點圖可以生成,前提是這兩種數據都有(Fig.4B,Plots tab)。
對每一個查詢來說,網站也會為所有可獲取的RPPA蛋白數據執行不同的分析,并鑒定和查詢的gene有關的發生遺傳學改變的蛋白和磷酸化蛋白。
在查血screen不一定非要選擇“RPPA protein/phosphoprotein level”。如果數據可以獲得,那么,這個分析可以被執行。對可獲得蛋白和磷酸化蛋白,cBioPortal執行一個雙側,雙樣本學生t檢驗來鑒定tumor samples(查詢的gene中至少有一個有alternation)之間的蛋白豐度差異。結果以一列蛋白和磷酸化蛋白list展示,根據在altered和未altered samples中間的蛋白豐度差異進行排序。這個table包含下列信息:
抗體可以識別的靶蛋白;磷酸化或修飾的殘基(比如,切割);腫瘤中發生改變的平均蛋白豐度z分數;p值;可選擇是否畫出結果圖,這個默認顯示。RPPA ID和未改變和改變的樣本間的平均z分數之間的絕對差異是可選擇列。對每一個蛋白或磷酸化蛋白,改變和未改變的samples之間的RRPA數據的z分數可以box圖展示。
下面這個結果展示的是,和glioblastoma cancer 突變和copy 數目有關的腫瘤抑制和脂質磷酸化蛋白,由PTEN編碼。Fig.6。例如,glioblastoma cancer中PTEN 缺失(突變或copy number deletion),和AKT(pT308和Ps473)的磷酸化緊密聯系在一起。Fig.6。
步驟如下
1.如下圖Fig.6所示的條件,perform
2.選擇protein changes tab(這里不出現這個面板,不知道是改進還是)
3.使用antibody type的下拉菜單,來限定使用抗體收集的數據,來檢測所有的蛋白或磷酸化蛋白
4.自定義table中顯示的data,使用show/hide columns菜單。選擇和反選。
5.press plot中的+ 符號展示盒裝圖,比較samples之間的z分數和豐度,有差異的沒差異的(查詢的gene或多個gene)
6.輸入ERBB(沒有引號)在搜索框,展示ERBB2和ERBB3的磷酸化改變。
7.刪除搜索文字可以返回完整結果。
Fig. 6. The Protein Changes tab
When available in the cancer study selected, results related to protein or phosphoprotein abundance are provided through this tab. In this example, glioblastoma (GBM) samples with alterations in PTEN have increased phosphorylated AKT. (A) Phosphoproteins with different amounts when comparing PTEN-altered samples and PTEN-wild-type samples. The list is sorted by P values from a two-sample t-test. (B) Boxplot representation of the relative amount of AKT pT308 in PTEN-altered and PTEN-wild-type samples. This plot is generated by clicking the icon in the Plot column of the tabulated data.
第六個面板 survival
如果生存數據可以獲得,那么tumor samples(查詢的gene至少有一個在腫瘤sample發生改變)之間的整體的生存和無病生存差異會被計算。這個結果以帶有p值的Kaplan-Meier圖展示(from logrank test)。
例子展示的ovarian cancer中BRCA1和BRCA2的突變。這個分析展示了BRCA1或BRCA2突變有明顯更好的總體和無病生存期。
步驟如下
1.執行如Fig.7的條件。
2.選擇Survival 面板
3.查看總體生存期分析和免疾病生存期分析結果
4.可以下載pdf等格式文件。
(備注,現在都是上下展示,以前是并列)
Fig. 7. The Survival tab The example shows the overall survival (A) and the disease-free survival (B) of ovarian cancer patients with or without BRCA1 or BRCA2 mutations. The red curves in the Kaplan- Meier plots includes all tumors with a BRCA1 or BRCA2 germline or somatic mutation, the blue curves includes all samples without a BRCA1 or BRCA2 mutation.
第七個面板Network
這個network tab提供了cancer中改變的相互作用分析和網絡可視化。Network包含pathways和來自HPRD(Human Reference Protein Database),Reactome,NCI-nature(National Cancer Institue)和Memorial Sloan-Kettering Cancer Center(MSKCC) Cancer Cell Map (http://cancer.cellmap.org), 的相互作用,源自于open source Pathway Commons Project.默認下,網絡自動生成,包含所有的查詢gene的所有鄰居(臨近節點)。If網絡中有多于50個neighbor genes存在,他們會根據在所選擇的癌癥中的genomic alternation 頻率進行排序,并且除了查詢的genes,只有最高改變頻率的50個neighbors展示。(only the 50 neighbors with the highest alternation frequency in addition to the query genes are shown).這對哪里網絡的復雜性和自動高亮和查詢的癌癥有關的genes非常有幫助。這個完整的未經修剪的網絡可以SIF和GraphML格式下載,在cytoscape中進一步可視化和分析。默認情況下,網站會自動根據相互作用的類型對邊加以顏色區分,并且每一個點覆蓋基因組data,高亮突變,CAN,mRNA上調下調頻率高的gene。顯示的數據和查詢中的設置有關,并且,也和選擇的genomic profiles可行性有關。可以用不同的選擇對網絡進行過濾,并且可以根據gene symbol對網絡就行搜索。不同的選擇都會改變這個網絡的展示,同時結果自動改變。解釋網絡符號的說明都有提供。Genes之間的改變的和相互作用的細節通過點擊nodes和edge都可以進行查看。相互作用的類型源自于BioPAX到SIF 規則。例如,“In Same Componet”揭示的是Genes A和B 涉及同樣的BC,例如complex。“State Change”說明Gene A引起一種狀態改變,比如Gene B的磷酸化改變。“Other”用于說明所有內部作用的其他類型,包括來于HPRD的蛋白蛋白相互作用。“Targeted by drug”說明drug-target相互作用。
Portal包含gene為中心的drug-target信息,來源一下resources:DrugBank,KEGG Drug,NCD cancer Drugs(http://www.cancer.gov/cancertopics/druginfo/alphalist),Rask-Andersen,Rask-Andersen) 等。Drugs在網絡中隱藏,默認顯示但可以使用genes & drugs菜單添加進網絡。用戶可以選擇展示U.S Food 和Drug Administration(FDA)-approved drugs,被NCI Cancer Drugs定義的癌癥藥物,或者靶向查詢genes的所有藥物。
通過選擇當前網絡的genes可以生成網絡,然后把這些genes當作新的query進行提交。
例如,為了發現serous ovarian cancer中EGFR信號通路網絡基因組的改變,我們使用EGFR和ERBB2作為查詢genes來探索結果網絡。如Fig.8.使用顏色密碼作為指引,這種癌癥正發生變化的連接gene非常明顯。對于EFGR和ERBB2網絡MYC,一個已知的ERBB2下游效應子
,顏色很紅,因為它在ovarian cancer samples中擴增30%(Fig.8)。
通過添加drug data,gefitinib和erlotinib,這兩個都是已知的酪氨酸激酶抑制劑,它們靶向EGFR的催化結構域,還有cetuximab和trastuzumab,這兩個是monoclonal抗體,分別靶向EGFR和ERBB2的胞外結構域,用邊顯示連接到它們的靶標Fig.8A。
具體步驟如下
-1.Fig8的條件執行查詢
-2.選擇 network tab
-3.從genes & Drugs tab選擇“show all drugs”
(備注,現在在右邊的genes下的“drugs of specified genes”)
-4.從顯示按鈕,選擇“layout properies”,并且設置最大距離到100來縮短邊的距離
-5.從layout button,選擇“perform layout”
-6.filtering 網絡后,自動執行layout changes,選擇“auto layout on changes”
-7.設置‘filter neighbors by alteration’到10
-8.通過單擊和重置nodes對nodes進行重排,以便更好的輸出
-9.雙擊MYC node可以查看基因組profile details
-10.從view菜單,選擇“highlight neighbors”,然后選擇“remove highlights”來重置所有nodes和edges
-11.view和過濾相互作用類型和sources in the interactions tab
-12.雙擊line,鏈接flavopiridol到EGFR的線,可以查看細節
-13.反選“merge ineractions”來顯示nodes之間不同作用類型的多個邊
-14.從view button,選擇“always show profile data”來可視化每個gene周圍的不同基因譜的變化頻率,反選可以去除。
-15.在“topology”button選項可以隱藏或顯示選擇的nodes或移除網絡中沒有鏈接的nodes。
-16.從genes & drugs選擇EGFR,ERBB2,MYC,單擊箭頭提交新的查詢
-17.使用瀏覽器back按鈕回到上一級結果
-18.下載GraphML或SIF可以在類似cytoscape的軟件中進行進一步分析。
下面這個圖是最新版的圖,2017.10.04
現在的gene legend
下面的是原文里的圖
Fig. 8. The Network tab
The example shows network analysis of EGFR networks in serous ovarian cancer. (A)Network view of the EGFR and ERBB2 neighborhood in serous ovarian cancer (TCGA dataset) rendered with Cytoscape Web (34).The query genes, EGFR and ERBB2, are outlined with a thick border, and nearest neighbor genes are color-coded by their alteration frequency in ovarian cancer. One can display drugs that target EGFR or ERBB2 (hexagons; orange indicates FDA-approved), as well as details about genomic alterations and links to external resources for any gene in the network (bottom left, example MYC). (B) The “Gene Legend” accessed from the “Legend” button. Mousing over any gene in the network or single-clicking the gene displays multidimensional genomic data (copy number, mutation, and mRNA expression) onto all nodes in the network. (C) The “Interaction Legend” accessed from the “Legend” button. Double-clicking the edge displays additional details about the interaction between the two nodes. Edges can represent different interaction types (color-coded, such as “reacts with”). (D) Options for filtering, cropping, and searching the network are shown.
第8-10個面板:IGV,Download,bookmark
Download tab提供所有的基因組數據下載和每個樣品的alteration的下載。
用戶可以下載tab-delimited text 文件,帶有所有查詢gene的數據或者僅僅需要的一些文件以便進一步分析。
Tab-delimited text文件兩種形式可以獲取(i)矩陣,行代表gene,列代表samples(ii)轉置矩陣,也就是行代表samples,列代表genes
用戶也可以可視化copy number細節,通過選擇開始一個web start version of IVG. IVG可以打開當前癌癥研究的分割的拷貝數data并顯示所有查詢genes的拷貝數狀態。
Bookmark tab
Bookmark tab運行用戶保存或標簽專門的query(整個的query可以儲存在URL形式)或通過生成短的URL(使用bit.ly)和同時一起分享結果
步驟如下
1.執行任何的query
2.從IGV tab,點擊launch 按鈕加載data,開始viewer
Note:所有samples的分割的copy-number data在IGV中可以可視化,無論那個cases被選擇來查詢
3.在Download tab,獲取tab-delimited格式的data,單擊超鏈接查看獲得的文件或打開URL在新tab或窗口。然后“select all”拷貝進電子表格或選擇file,然后“save page as”存儲為text file
4.從Download tab,把data放進電子表格或生成file手動的,復制粘貼每個text box中的data進入choise program
5.從Bookmark tab,右擊link 粘貼進瀏覽器產生個人bookmark或存儲鏈接到一個專門的query
6.從bookmark tab,press “shorten URL” 產生短的URL通過使用bit.ly (為特意查詢)
Note通過點擊短的link或長版本可以加載bookmark頁面。
執行cross-cancer 查詢
Cross-cancer queries允許用戶估計單個gene或多個gene在多種不同的癌癥類型間的改變頻率和突變data。跨癌癥的mRNA表達或蛋白豐度data目前還不可行。網站會自動限制這種研究搜索以匹配到查詢參數,這樣只有帶有mutation 信息的data包括進僅含突變的query并且只有帶有CAN的data信息被包含在CAN-only 查詢。結果以直方圖形式呈現:
-(i)一個顯示這些癌癥中的改變頻率,以降序排列
-(ii)一個顯示每個癌癥研究中,帶有和不帶有改變的samples的絕對number,這可以以帶有改變的數目下降的order進行。展現。如果多個genes被查詢,那么直方圖會展示綜合的改變或改變頻率(包含所有的選擇的gene)。關于查詢的genes的細節在oncoprints也有體現。這樣使得每種癌癥研究的每個選擇的gene的結果都可以可視化。
一個關于TP53的cross-cancer研究,這個gene編碼腫瘤抑制gene和轉錄調控子p53,顯示了cBioPortal的特性(Fig.9A)
步驟如下
-1.主查詢page(Home)選擇“All Cancer Studies”.
備注,新版這個已經變了。直接在下圖中select all 即可
-2.選擇“only mutation”
Note: 這會自動不查詢限制到只有mutation data的癌癥研究中。
-3.輸入感興趣的gene或genes
-4. press “submit”
-5.press “sort” link 組織數據,從發生突變頻率最高到最低的順序排列。(Fig.9B),也可以按字母順序排列
-6.左上角Y-Axis value 那里有個下拉框,可以按突變頻率排序也可以按absolute counts排序。
-7.鼠標劃過任何bar都可以看到結果的詳細信息
-8.鼠標左擊任何列表的bar可以查看選擇的genes在該cancer中的oncoprints
(A) Users initiate a query against all cancer studies in three steps. (B) The results are displayed as a histogram of the alteration frequencies of the query gene (or genes) across cancer studies. The example shows that TP53 mutation frequencies are the highest in squamous cell carcinomas of ovary, lung, and head and neck.
查看癌癥研究summary data
除了執行特異gene queries,cBioPortal還提供access to 包含在portal中的每個癌癥研究的總結。可獲得數據包括每個病人的不同的臨床details(生存和診斷時的年齡),關于tumor的細節(histology,stage,grade),遺傳學data的總結(非同源突變的數目,基因組改變的fraction),復發的突變gene的細節,復發的CNAs的細節。臨床數據的呈現既可以有圖也可以有table(Fig.10). 突變的gene和CNAdata以tables的形式展現。所有的table都有搜索選項。搜索queries所有內容(caseIDs,gene symbols,臨床特征),可以包含短語。步驟如下
-1.HOME選擇“Uterine Corpus Endometroid Carcinoma (TCGA, Provisional)”
-2.摁那個summary按鈕。看細節
-3.新版已經不適應
-4.鼠標放圖上可以看相關details
-5.轉到clinical data可以通過點擊arrowheads對每列進行排序。
-6. 在紅色框里輸入deceased可以查看已故的人的信息
Note:搜索病人data的table不會更新選擇的病人的圖的data。
-7.刪除搜索框內的text可以對整個cases的列表進行重排
-8.點擊“copy number alterations” 可以獲得染色體區域列表和帶有CNAs的基因的列表
-9.點擊“mutated genes”可以獲得循環的突變的genes列表
-10.點擊列表gene的任何一個可以執行新的突變查詢(指定的癌癥指定的突變)
-11.無用
-12.現在graph發生了很大變化。但總體多了。把鼠標放到餅圖的扇形區域,點擊,整個界面都會發生變化,和點擊的扇形區域有關。
-13. 第12步選擇的條件都會在上方有顯示,然后可以逐一清除,也可以clear all,這樣就可以restore所有的plots和table。
下面是新版的圖。
下面這個是原始文章的圖
Fig. 10. The cancer study summary view The example shows an overview of clinical attributes and a scatter plot of mutation count versus fraction of genome altered for each case in the TCGA endometrial cancer study.
查看單個腫瘤的基因組改變:patient view
在任意一個腫瘤sample中,都有潛在的可能發生上百或上千的基因組改變,對于選擇,檢查和分析,那些對癌癥發生或影響治療的反應的改變的事件,就極其重要。因此,除了跨越許多samples,不同tumor types和癌癥研究總結data,除了gene-by-gene 改變地圖,用戶也可以查看個體tumor sample的基因組改變,在一個交互式病人view page。在oncoprint(對每一個基因組event可以鼠標看細節)可以看到這些鏈接,除了在oncoprint,還可以在mutations tab,cancer study summary page也可以看到。
病人查看界面總結,可視化關于tumor的所有相關數據,包括臨床特征,突變和拷貝數變異程度總結,關于突變,擴增和刪除gene的細節(Fig.11)。這個結果以tabbed displays展示。總結tab中的基因組改變以以下條件進行過濾
跨越tumor集合的突變或CNAs復發(frome MutSig 和GISTIC),COSMIC中的圖表發生,癌基因注釋(比如sanger cancer gene census)。也提供關于藥物和靶標的信息。步驟如下
-1.頂部的導航pane點擊“DATA SETS”按鈕。
-2.點擊“Uterine Corpus Endometrioid Carcinoma (TCGA, Provisional).”
這一步的效果和上面那個點那個柱狀圖效果一樣。
-3.搜索框內輸入“TCGA-FI-A2D2”
點擊右邊紅色框后,會出現左邊的框,然后在左邊那個紅色框里輸入
實際是執行下步,也就是需要點擊那個小人
-5.忽略
-6.鼠標劃過mutations和CNA tables 的列頭獲得更多關于每列的信息
Fig. 11. The cBioPortal patient view The example shows the relevant genomic alterations and clinical data of an endometrial cancer sample with mixed histology from the TCGA study.
Y大寬原創,喜歡記得點個贊