1. 準備工作:
- 登陸TCGA數據庫GDC界面:https://portal.gdc.cancer.gov/
TCGA GDC界面 -
首先確保Cart中沒有之前的文件記錄,如果有其他文件(即文件數不為0),清空Cart。
核對Cart已清空 -
如果Cart文件數不為0,則點擊進入Cart界面進行清空。
清空Cart
2. 選擇樣本類型及性質:
- 點擊Repository進入數據倉庫,隨后點擊Cases樣本類型及性質的選擇:
點擊Cases -
首先確定樣本部位,以前列腺癌樣本舉例:
選擇樣本部位 -
選擇樣本來源項目,如果只分析TCGA的樣本,則只選擇TCGA:
選擇項目來源 -
我們之前的一些選擇,會不斷縮小樣本范圍,所以我們發現Project選項下只有一個TCGA-PRAD,我們可不用點擊,不選擇表示該選項下的內容都要。
Disease Type這里根據分析需要進行選擇,這里我為了統一病理類型,進行了選擇。
Gender無特殊需要可不進行選擇。
Vital Status一般我們需要進行生存分析的話,就選擇alive和dead的患者,not reported的患者表示生存資料不全,可以進行剔除。
Age at Diagnosis以及Days to Death根據自己課題需要進行設定,一般情況下默認不設定篩選條件。
-
Race和Ethnicity一般情況下不設定篩選條件,并且這里的nor reported的樣本過于多,我們不進行篩選了,以免丟失過多樣本數。
3. 選擇組學數據類型及格式:
- 點擊Files選擇數據類型及格式。
- Data Category這里用最常見的轉錄組數據舉例,選擇transcriptome profiling.
- Data Type選擇Gene Expression Quantification,代表蛋白編碼基因和長鏈非編碼基因的測序數據。miRNA基因的測序數據不包含在其中,需要選擇miRNA Expression Quantification而不是Gene Expression Quantification。
- Experimental Strategy只有一個選擇,默認不選,Workflow Type根據自己需求,一般常用的是Counts數據或FPKM數據。
*一般選到這里就不再點擊其他篩選條件了,而且一般其他選項也只剩一個選項了。 -
Access表明數據權限,我們普通用戶只能使用open的數據,如果出現了非開放的數據,記得這里只點擊open。
選擇數據類型及格式
4. 下載選擇好的數據:
-
將選擇好的數據加入購物車,隨后點擊Cart進入購物車界面。
將選擇好的數據加入購物車 - 在Cart界面分別點擊Metadata(下載注釋文件)以及Download(下載數據)。Download選項提供兩種數據下載途徑:Manifest表示下載Manifest文件后使用gdc-client軟件下載數據(gdc-client下載數據方法),這種方法適合下載大文件;Cart表示通過瀏覽器直接下載,該方法更方便,但是不適合下載很大的文件。
- 至此TCGA數據下載已完成。