1. 什么是TCGA?TCGA中有哪些數據?
TCGA的全稱是The Cancer Genome Atlas, 這個項目始于2005年,它旨在使用基因測序和生物信息學編目與癌癥有關的基因突變。TCGA通過利用高通量基因組分析技術,來幫助我們更好地理解癌癥的遺傳學基礎,從而提升我們對于癌癥的診斷能力和對癌癥的治療、預防。
TCGA受美國癌癥研究所(National Cancer Institute)下的癌癥基因組中心和美國人類基因組研究所監管。
TCGA包括主要進行測序的基因組表征中心(genome characterization centers, GCCs)和負責測序數據分析的基因組數據分析中心(genome data analysis centers, GDACs),到目前為止TCGA共有39種癌癥的相關測序數據,涉及29種癌癥器官,1萬多個腫瘤樣本,27萬多份文件。
? 那么可以從TCGA中下載到哪些類型的數據呢?
TCGA的數據類型主要有以下幾種:
(1) Clinical: 包括病人的一般情況、診治情況、TNM分期、腫瘤病理、生存情況等。
(2) mRNA表達數據: 通過mRNA芯片或者RNAseq測得的mRNA表達量
(3)microRNA: microRNA芯片或者microRNA-Seq測得的microRNA表達量
(4) Copy number variation: SNP芯片得到的腫瘤組織比對正常組織的染色體上各片段的比值
(5) Mutation: 腫瘤組織測序結果相對參考基因組的核苷酸突變,包括插入和缺失等變化
(6) Protein: 蛋白芯片測序得到的約200種常見癌癥相關蛋白的表達量
(7) Mythelation: 甲基化芯片測得的DNA甲基化數據,主要為27和450兩種芯片的數據
其中mRNA-Seq,miRNA-Seq以及Methylation Array被廣泛使用。
mRNA-Seq數據分為3種:
HTSeq-Counts;HTSeq-FPKM;HTSeq-FPKM-UQ。
前兩個比較好理解,第三個跟第二個的區別在于不同的標準化方法,公式可參考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
? TCGA數據等級:
level1:原始數據
level2:處理過的數據
level3:經過分割、解釋的數據
level4:感興趣的區域或概要
總而言之,前面2個層級的數據一般是拿不到的,需要權限,一般也只有國外的PI才能申請到(聽說的),我們一般拿到的open數據就屬于那種已經標準化后的數據。
? TCGA樣本分類:
除了要知道數據等級外,我們還需要了解TCGA的樣本分類,比如哪個是正常樣本,哪個是腫瘤樣本
一般我們可以看到樣品名稱如:TCGA-19-2619-10A,我們需要關注的是最后一位10A,一般來說01代表癌癥樣本,11代表癌旁樣本。其實從01-09是tumor,癌癥樣本;10-29是normal,癌旁樣本。只是其中分的比較細
具體可參考官網說明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
2. TCGA數據下載方式
主要有三種方式可以下載TCGA的數據,一是利用GDC官方的下載工具;二是利用cbioportal下載;三是TCGA-assembler 2。
在這里我將著重分享一下利用GDC進行TCGA數據下載的方式。
(1) GDC官方下載工具下載和安裝
TCGA GDC Data Portal官網地址為:https://portal.gdc.cancer.gov/
進入GDC主頁面之后,選擇"Repository"進行查看以及下載數據(Browse and download data);一般在下載數據時先設定“Cases”的條件,再設置“Files”的條件。下面以下載乳腺癌miRNA表達數據為例進行演示:
? 在Cases界面分別對Primary Site, Project, Disease Type幾個主要信息進行設置,如下圖:
? 在Files界面進行選擇,它包括Data Category, Data Type, Exprimental Strategy, Workflow Type等。選擇如下圖:
? Cases和Files都選擇好了之后,點擊“Manifest”下載相應的.manifest文件
? 下載選擇這批Cases的clinical信息文件:即不改變Cases部分的選擇,清空Files的勾選項,在Data Category中選擇Clinical,再在Data FOrmat中選擇XML格式,如下圖:
同樣的選擇好后,下載manifest文件。
? Tip: 注意此時得到的樣本數量,這在后續用下載得到的miRNA表達數據結合臨床信息進行生存分析的時候有用
? 兩個manifest文件下載完后,通過Filezilla Client這個軟件將本地的manifext相關的兩個.txt后綴的文件傳輸到linux服務器上
(這一步是否要進行取決于你想在哪邊使用GDC client這個軟件,由于我之后會直接把GDC client下載到linux服務器上,所以同時也把manifest.txt上傳到了服務器)
?附GDC Data Transfer Toll Client地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
接下來主要是Linux服務器上的命令相關操作
1. Linux環境下下載并解壓GDC Client
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
unzip gdc-client_v1.4.0_Ubuntu_x64.zip
2. 利用GDC Client下載menifest.txt文件中的數據
./gdc-client --help
./gdc-client download --help
./gdc-client download -m gdc_manifest.2019_04_24_BRCA_clinical.txt
同理根據miRNA的manifest文件下載miRNA的數據。
3. 查看樣本的生存情況
grep -i vital_status */*xml | grep -v Alive | wc
因為false不代表death,所以這里選擇查看的是alive的樣本數量。
當你不那么會編程,但是有需要整理下載下來這些樣本時,你可能會需要以下命令:
grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc
Reference:
[1] TCGA-wikipedia
[2] 初步認識TCGA
[3] 生信技能樹-TCGA腫瘤數據庫知識圖譜視頻教程