生物信息數(shù)據(jù)庫的使用

superqun 原創(chuàng)于簡書

手工目錄:

目錄

Q1:如何在肺癌數(shù)據(jù)庫中選出k-ras突變的病人樣本。

1. 使用GDC下載。

image

GDC portal頁面中選擇Exploration并進(jìn)入。
在case選項卡中選擇

  • primary->Bronchus and lung;
  • Program->TCGA;
  • roject->TCGA-LUAD;

在Gene選項卡搜索kras,選擇了202例kras突變的點擊 View Files in Repository.然后可以在Repository中選擇需要下載kras突變的病例的相關(guān)文件。

image

2.通過UCSC xena下載kras基因突變的肺腺癌LUAD樣本

UCSC xena中的study中選擇LUAD
first variable中選擇phenotypic(表型)和sample type(病例類型)
second variable中在Genomic選項下選擇KRAS并注明是somatic mutation

在過濾中分別過濾出tumormutation
然后通過download as tsv下載數(shù)據(jù)。

image

image

Q2:查詢TP53基因突變/CNG/高表達(dá)對乳腺癌生存預(yù)后的影響。有哪些方法。適用場景是什么

xena網(wǎng)站繪制

在xena網(wǎng)站中選擇BRCA癌癥。
first variable:選擇phenotypic(和sample type來為稍后過濾正常組織做準(zhǔn)備。
second variable:選擇Genomic并輸入TP53來確認(rèn)基因,并注明Gene Expression
過濾:在頂部過濾出tumor數(shù)據(jù)。
成圖:在第二變量欄中右上角點擊more然后選擇 Kaplan Meier Plot

image

image

突變和CNV同理

oncolnc網(wǎng)站繪制

oncolnc可以通過基因獲取在某個癌癥中的表達(dá)情況。在oncolnc輸入TP53,選擇BRCA癌癥類型。進(jìn)入生存曲線生成潔面,選擇高表達(dá)和低表達(dá)的比例。例如:50:50表示表達(dá)數(shù)據(jù)從高到低前50%到后50%進(jìn)行分組。生成生存曲線。還可以點擊下載原始數(shù)據(jù),可以通過其他途徑進(jìn)行分析。

image

通過第三方軟件:r語言或者prism利用原始數(shù)據(jù)繪制生存分析圖(已經(jīng)get到目標(biāo)樣本的有關(guān)生存的臨床信息)

幾種方法的比較

生存曲線繪制 xena oncoln GDC數(shù)據(jù)自構(gòu)
數(shù)據(jù)時效
原始數(shù)據(jù)下載 yes^1 yes yes
難易程度 mid easy very hard
曲線結(jié)構(gòu)調(diào)整 no yes yes

1:需要通過UCSC xena的DATA HUBS下載

Q3: 如何找到口腔癌(OSCC)(oral cavity cancer sample)的樣本

在TCGA的分類中被沒有OSCC的數(shù)據(jù),只有Head and Neck Cancer(HNSC)頭頸癌。需要在頭頸癌樣本中尋找屬于oral cavity cancer的病人樣本。

通過Xena DATA HUBS獲取OSCC樣本

通過Xena DATA HUBS,在HNSC網(wǎng)頁中找到Head and Neck Cancer(HNSC)數(shù)據(jù)中的phenotype->phtnotype數(shù)據(jù)

然后通過anatomic_neoplasm_subvision數(shù)據(jù),篩選出oral cavity數(shù)據(jù),得到OSCC樣本。數(shù)據(jù)類型如下圖

image

通過Xena visualization 來獲取OSCC樣本

在xena網(wǎng)站中選擇HNSC癌癥。
first variable:選擇anatomic_neoplasm_subvision(這個選項不在basic選項中)
second variable:選擇其他需要研究的數(shù)據(jù)。例如sample type來區(qū)分正常組織和癌癥組織。
然后通過篩選出oral cavity cancer的病人樣本,然后下載tsv格式樣本

也可以通過GDC下載clinical數(shù)據(jù)進(jìn)行選擇。

Q4: METABRIC項目

METABRIC(乳腺癌國際聯(lián)盟的分子分類學(xué))是一項加拿大與英國合作項目,旨在根據(jù)有助于確定最佳治療過程的分子特征將乳腺腫瘤分類為更多的亞類。
鏈接

Q5: 在腦膠質(zhì)瘤中找到GFR3-TACC3基因融合的樣本信息

TCGA數(shù)據(jù)庫中可以挖掘基因融合現(xiàn)象。但是因為數(shù)據(jù)都是限制數(shù)據(jù)無法自行下載。有的網(wǎng)站進(jìn)行了整合。網(wǎng)站http://www.tumorfusions.org/對融合基因進(jìn)行了分析和整理。通過該網(wǎng)站可以查詢到基因融合現(xiàn)象。

image

Navigation中進(jìn)入Cancer Type然后選擇GBM,在結(jié)果中再次檢索GFR3,得到有關(guān)GFR3的基因融合情況。
image

Q6:TCGA中數(shù)據(jù)類型和格式

DNAseq數(shù)據(jù)

獲取方式:通過全外顯子組測序(wxs)和全基因組測序(wgs)獲得

[圖片上傳失敗...(image-2b9c2b-1557670945395)]

數(shù)據(jù)類型 說明 格式
Aligned Reads GRCh38 比對 BAM格式文件
RAW simple somatic mutation 制表符分隔文件,其中包含與基因組位置相關(guān)的基因型信息。這里首先鑒定基因組變體。 VCF文件
Annotated somatic mutation 對RAW ssm文件的注釋,注釋信息包括突變的生物學(xué)背景 VCF文件
Aggregrated somatic Mutation 聚合的VCF文件,包含所有案例可用的突變信息。 MAF文件(tab分割)
Masked somatic Mutation 刪除了可能出錯的信息。是ASM的修正信息 MAF文件

RNAseq數(shù)據(jù)

獲取方式:通過RNAseq測序的HT-seq數(shù)據(jù)整合,比對GRCh38基因組然后量化。

image
數(shù)據(jù)類型 說明 格式
RNA-Seq Alignment 和GRCh38比對的文件 BAM格式文件
HT-Seq Read Counts 通過HT-seq軟件比對的結(jié)果文件,記錄counts數(shù) TXT格式文件
STAR Reads Counts 通過STAR軟件比對的結(jié)果文件,記錄counts數(shù) TSV格式文件
FPKM文件 標(biāo)準(zhǔn)化的,消除測序深度和基因長度的因素 TXT格式文件
FPKM-UQ FPKM公式進(jìn)行修改。分母不再是編碼蛋白的reads總數(shù)而是,75%的read數(shù)^* TXT格式文件

miRNASeq數(shù)據(jù)

數(shù)據(jù)類型 說明 格式
Aligned Reads 和GRCh38比對的文件 BAM文件
miRNA Expression Quantification miRNA ID和read數(shù)和標(biāo)準(zhǔn)化后的reads-per-million-miRNA-mapped TXT格式

拷貝數(shù)變異CNV

獲取方式:Affymetrix SNP 6.0芯片,GDC進(jìn)一步將拷貝數(shù)值轉(zhuǎn)換為 log2(拷貝數(shù)/2)
數(shù)據(jù)與格式

數(shù)據(jù)類型 說明 格式
Copy Number Segment 將連續(xù)的染色體坐標(biāo)和基因坐標(biāo)、平均芯片強(qiáng)度、和每個片段對應(yīng)的探針數(shù)量 向?qū)?yīng)的文件 TXT文件
Masked Copy Number Segment 有和CNS文件一樣的信息,只不過出去了一些有已知突變的探針 TXT文件
Copy Number Estimate 從MSCNS中產(chǎn)生,記錄了基因水平的拷貝增加/減少 TXT文件

甲基化 Methylation

獲取方式:通過illumina 的HM27和HM450芯片來測量已知CpG島的甲基化程度,以此為beta數(shù)據(jù),beta=M/(M+U)

數(shù)據(jù)類型 說明 格式
Methylation Beta Value 甲基化beta值:將探針和CPG位點和相關(guān)的Metadata 數(shù)據(jù)關(guān)聯(lián) TXT文件

VCF & MAF 格式說明:
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

Q7:突變的排他性檢測。例如乳腺癌中檢測TP53突變而PIK3CA未突變的樣本信息

在所有的乳腺癌樣本中(1099例)需要過濾出TP53突變樣本(360例),然后過濾出PIK3CA突變的樣本(339例),其次下載乳腺癌樣本中進(jìn)行了DNAseq,有突變信息的樣本(987例)。然后根據(jù)樣本進(jìn)行篩選。
值得一提,在cBioPortal中能夠進(jìn)行基因突變的排他性檢測。但是,只能判斷l(xiāng)og2 Odds Ratio、p值、q沒有提供具體的樣本ID

image

如何獲取生成有突變信息的樣本

在TCGA的Exploration中選擇 Case -> Primary Site : Breast -> Program : TCGA。然后在右側(cè)試圖窗口選擇Genes-> # SSM Affected Case in Cohort -> 360/987 -> 987 -> 下載Jason文件(包含除突變和基因外的信息)

image

Q8: TCGA數(shù)據(jù)庫和衍生網(wǎng)頁工具、生信數(shù)據(jù)庫的使用。

UCSC網(wǎng)頁工具

1.可視化
UCSC可視化是功能十分強(qiáng)大的。可以實現(xiàn):

  • Kaplan Meier分析:查看某基因?qū)ι嬗绊憽?/li>
  • 比較正常組織和癌癥組織生物特征的關(guān)系
  • 探索基因和臨床數(shù)據(jù)的關(guān)系。例如查找基因位點甲基化與基因表達(dá)的關(guān)系。或者兩個基因的工表達(dá)關(guān)系。
  • 比較野生型樣本和某突變樣本進(jìn)行比較分析。
image

2.Data hub
UCSC還可以進(jìn)行便于分析的格式的數(shù)據(jù)下載。以GDC數(shù)據(jù)庫為例,提供有copy number, DNA methylation, gene expression RNASeq, phonotype, somatic mutation等信息。

image

cbiportal數(shù)據(jù)庫

cbioportal數(shù)據(jù)庫是一個基因組數(shù)據(jù)分析的可視化工具。目前為止收錄了169個來源于TCGA、ICGC等多個數(shù)據(jù)庫和已經(jīng)發(fā)表論文的研究數(shù)據(jù)庫。提供的數(shù)據(jù)類型有 somatic mutation、copy number variation、gene expression RNASeq、DNA methylation、蛋白豐度,數(shù)據(jù)都是可以下載的。

image

cbioportal可以通過在線分析也可以進(jìn)行數(shù)據(jù)下載。數(shù)據(jù)選擇可以輸入多個基因。而且cbioportal可以分析

  • Oncoprint
  • Cancer Types Summary 癌癥類型。
  • Mutation Exclusivity 突變排他性分析:可以分析兩個基因:A、B。包括A Not B、B Not A、 Both 、Neither四種邏輯。
  • plots 圖表:可以進(jìn)行例如copy number、mRNA表達(dá)、突變、臨床attribution等信息的兩兩之間的繪圖展示,由于提供給了填色功能,允許按照Mutation type、 Copy Number Alteration來進(jìn)行填色。所以可以看作是三個維度的信息。
  • Mutation 突變信息:包括了突變類型和突變位點,并以可視化展示,如圖。
Mutation 突變信息
  • co-expression 共表達(dá)情況:查看目的基因和哪些基因有共表達(dá)情況如圖,這里看目的基因和哪些基因有共表達(dá)情況,如果需要看多個目的基因之間的共表達(dá),需要在圖表中搜索。或者用xena可視化。
co-expression 共表達(dá)情況
  • Enrichment富集:分為Mutation 通過突變分析基因富集、Copy-number 通過拷貝數(shù)分析基因富集、 mRNA 通過mRNA分析基因富集:在三個水平來探索在目的基因有變化的樣本中,其他基因的變卦情況。在mRNA表達(dá)中,至少一個基因變化的樣本組稱為Altered group,未發(fā)生變化的成為unaltered group.Enrichment可以查看基因發(fā)生突變、拷貝增加、mRNA表達(dá)變化會分別影響哪些基因的變化,并列舉變化程度和可信度。 例如,如圖,探索AR信號通路中SCOX9等在內(nèi)的十個基因 在mRNA表達(dá)變化的Altered group中,μ in unaltered group是基因表達(dá)變化組的樣本中平均表達(dá)值的log2轉(zhuǎn)換值。σ in altered group是平均標(biāo)準(zhǔn)差。選擇點個基因可以在左下柱狀圖中查看具體的數(shù)據(jù)分布。
Enrichment 富集
  • Network:展示了所選的基因和在腫瘤樣本中變化比較顯著(是什么顯著?顯著突變還是顯著高表達(dá)?未解)的另外50個基因的基因互作關(guān)系網(wǎng)絡(luò)。(your query genes and the 50 most frequently altered neighbor genes )。可以下載關(guān)系網(wǎng)絡(luò)用cytoscape進(jìn)行分析。
image
  • DownloadDownloadable Data Files:提供所選基因的拷貝變化情況(Copy-number Alterations)、突變情況、受影響的樣本信息、這些樣本分別在哪些基因上有變化。(都是很簡略的信息)。Gene alternation Frequency:在目的基因列表中,有哪些基因的Alternation在樣本中出現(xiàn)頻率的列表。Type of genetic Alterations Across All Sample:列出發(fā)生genetic Alterations——基因變化(拷貝變化cnv或者突變)的類型。幾種CNV(拷貝變化)類型:AMP-Amplified-?,HOMDEL-Homozygously Deleted-純合刪除,GAIN-Gained-?,HETLOSS-Heterozygously Deleted-雜合刪除

    Download

cbioportal和UCSC xena的區(qū)別是設(shè)計思路是xena是用戶來探索少量個已知基因在樣本中的生物學(xué)規(guī)律和聯(lián)系,作圖豐富多樣可以十分豐富地自己設(shè)計圖形坐標(biāo)系統(tǒng),可以過濾樣本來求更高凈準(zhǔn)度,實現(xiàn)精準(zhǔn)針對。cbioportal是發(fā)現(xiàn)和目的基因的關(guān)聯(lián),而且是為處理大量基因list而設(shè)計的,不能過濾樣本,而且實現(xiàn)的圖表類型自定義空間比較小,圖表類型比較少。cbioportal適合在已經(jīng)有部分目的基因方向不是很明確,想要以此為基礎(chǔ)研究擴(kuò)展出更多信息。xena的可視化適合單個基因、有方向的研究。

firebrowse

網(wǎng)址http://www.firebrowse.org/
使用情景:firebrowse網(wǎng)站是將TCGA的數(shù)據(jù)進(jìn)行了全面分析。提供有突變?nèi)皥D、拷貝變異情況等。另外firebrowse提供了TCGA分析報告。可以提供例如在乳腺癌中哪些基因的CNG和mRNA表達(dá)增加最相關(guān)、哪些基因的表達(dá)和甲基化最相關(guān)等等這些top信息。

image

firebrowse適合在一個癌癥領(lǐng)域最起初的探究把握。是比較前期的了解使用。

oncolnc

專門繪制生存曲線的網(wǎng)站。在Q2:查詢TP53基因突變/CNG/高表達(dá)對乳腺癌生存預(yù)后的影響。有哪些方法。適用場景是什么中有介紹

gepia網(wǎng)站

提供有便捷地查詢基因在腫瘤/正常組織的表達(dá)情況。還提供有其他功能,但是常用的是基因在腫瘤和正常的表達(dá)情況。

image
  1. 這里面的正常組織是使用了GTEx數(shù)據(jù)庫的數(shù)據(jù)的。
  2. 使用的癌癥數(shù)據(jù)是TCGA癌癥數(shù)據(jù)、使用的正常組織是TCGA的正常組織和GTEx數(shù)據(jù)。
  3. 如果需要絕對嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)還是結(jié)合TCGA的數(shù)據(jù)自行分析

tanric

主要針對ncRNA建立的數(shù)據(jù)庫。


image

花費了挺大的心血整理,如果認(rèn)為文章對您有些許幫助,還望點個喜歡呀。我會持續(xù)更新的!

贈人玫瑰,手有余香。感謝你的閱讀。雖然我也不知道會不會有人讀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容