如何下載TCGA數據/TCGA數據下載小教程

1. 什么是TCGA?TCGA中有哪些數據?

TCGA的全稱是The Cancer Genome Atlas, 這個項目始于2005年,它旨在使用基因測序和生物信息學編目與癌癥有關的基因突變。TCGA通過利用高通量基因組分析技術,來幫助我們更好地理解癌癥的遺傳學基礎,從而提升我們對于癌癥的診斷能力和對癌癥的治療、預防。
TCGA受美國癌癥研究所(National Cancer Institute)下的癌癥基因組中心和美國人類基因組研究所監管。
TCGA包括主要進行測序的基因組表征中心(genome characterization centers, GCCs)和負責測序數據分析的基因組數據分析中心(genome data analysis centers, GDACs),到目前為止TCGA共有39種癌癥的相關測序數據,涉及29種癌癥器官,1萬多個腫瘤樣本,27萬多份文件。

? 那么可以從TCGA中下載到哪些類型的數據呢?
TCGA的數據類型主要有以下幾種:
(1) Clinical: 包括病人的一般情況、診治情況、TNM分期、腫瘤病理、生存情況等。
(2) mRNA表達數據: 通過mRNA芯片或者RNAseq測得的mRNA表達量
(3)microRNA: microRNA芯片或者microRNA-Seq測得的microRNA表達量
(4) Copy number variation: SNP芯片得到的腫瘤組織比對正常組織的染色體上各片段的比值
(5) Mutation: 腫瘤組織測序結果相對參考基因組的核苷酸突變,包括插入和缺失等變化
(6) Protein: 蛋白芯片測序得到的約200種常見癌癥相關蛋白的表達量
(7) Mythelation: 甲基化芯片測得的DNA甲基化數據,主要為27和450兩種芯片的數據

其中mRNA-Seq,miRNA-Seq以及Methylation Array被廣泛使用。

mRNA-Seq數據分為3種
HTSeq-Counts;HTSeq-FPKM;HTSeq-FPKM-UQ。
前兩個比較好理解,第三個跟第二個的區別在于不同的標準化方法,公式可參考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

? TCGA數據等級:

level1:原始數據
level2:處理過的數據
level3:經過分割、解釋的數據
level4:感興趣的區域或概要
總而言之,前面2個層級的數據一般是拿不到的,需要權限,一般也只有國外的PI才能申請到(聽說的),我們一般拿到的open數據就屬于那種已經標準化后的數據。

? TCGA樣本分類:
除了要知道數據等級外,我們還需要了解TCGA的樣本分類,比如哪個是正常樣本,哪個是腫瘤樣本

一般我們可以看到樣品名稱如:TCGA-19-2619-10A,我們需要關注的是最后一位10A,一般來說01代表癌癥樣本,11代表癌旁樣本。其實從01-09是tumor,癌癥樣本;10-29是normal,癌旁樣本。只是其中分的比較細

具體可參考官網說明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

2. TCGA數據下載方式

主要有三種方式可以下載TCGA的數據,一是利用GDC官方的下載工具;二是利用cbioportal下載;三是TCGA-assembler 2。

在這里我將著重分享一下利用GDC進行TCGA數據下載的方式

(1) GDC官方下載工具下載和安裝

TCGA GDC Data Portal官網地址為:https://portal.gdc.cancer.gov/

進入GDC主頁面之后,選擇"Repository"進行查看以及下載數據(Browse and download data);
GDC home page

進來“Reoository”的界面如下圖。GDC給出了一系列的用戶友好的選擇框,你只需要根據條條框框來選擇就可以下載到自己想要的數據,而不需要去幾百個文件夾里面漫無目的的查找了。根據自己課題的需求,在對應的"Cases"框和"Files"分別選中你要的條件即可。
Repository 界面

一般在下載數據時先設定“Cases”的條件,再設置“Files”的條件。下面以下載乳腺癌miRNA表達數據為例進行演示:
? 在Cases界面分別對Primary Site, Project, Disease Type幾個主要信息進行設置,如下圖:

TCGA數據下載示例1

? 在Files界面進行選擇,它包括Data Category, Data Type, Exprimental Strategy, Workflow Type等。選擇如下圖:
TCGA數據下載示例2

? Cases和Files都選擇好了之后,點擊“Manifest”下載相應的.manifest文件
TCGA數據下載示例3

? 下載選擇這批Cases的clinical信息文件:即不改變Cases部分的選擇,清空Files的勾選項,在Data Category中選擇Clinical,再在Data FOrmat中選擇XML格式,如下圖:
TCGA數據下載示例4

同樣的選擇好后,下載manifest文件。
? Tip: 注意此時得到的樣本數量,這在后續用下載得到的miRNA表達數據結合臨床信息進行生存分析的時候有用

? 兩個manifest文件下載完后,通過Filezilla Client這個軟件將本地的manifext相關的兩個.txt后綴的文件傳輸到linux服務器上
(這一步是否要進行取決于你想在哪邊使用GDC client這個軟件,由于我之后會直接把GDC client下載到linux服務器上,所以同時也把manifest.txt上傳到了服務器)
?附GDC Data Transfer Toll Client地址https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

TCGA數據下載示例5

接下來主要是Linux服務器上的命令相關操作

1. Linux環境下下載并解壓GDC Client

wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
unzip gdc-client_v1.4.0_Ubuntu_x64.zip

2. 利用GDC Client下載menifest.txt文件中的數據

./gdc-client --help
./gdc-client download --help
./gdc-client download -m gdc_manifest.2019_04_24_BRCA_clinical.txt
同理根據miRNA的manifest文件下載miRNA的數據。

3. 查看樣本的生存情況

grep -i vital_status */*xml | grep -v Alive | wc
因為false不代表death,所以這里選擇查看的是alive的樣本數量。
當你不那么會編程,但是有需要整理下載下來這些樣本時,你可能會需要以下命令:
grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc

Reference:
[1] TCGA-wikipedia
[2] 初步認識TCGA
[3] 生信技能樹-TCGA腫瘤數據庫知識圖譜視頻教程

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。