如何在TCGA官網中選擇并下載數據

1. 準備工作:

  • 登陸TCGA數據庫GDC界面:https://portal.gdc.cancer.gov/
    TCGA GDC界面
  • 首先確保Cart中沒有之前的文件記錄,如果有其他文件(即文件數不為0),清空Cart。


    核對Cart已清空
  • 如果Cart文件數不為0,則點擊進入Cart界面進行清空。


    清空Cart

2. 選擇樣本類型及性質:

  • 點擊Repository進入數據倉庫,隨后點擊Cases樣本類型及性質的選擇:
    點擊Cases
  • 首先確定樣本部位,以前列腺癌樣本舉例:


    選擇樣本部位
  • 選擇樣本來源項目,如果只分析TCGA的樣本,則只選擇TCGA:


    選擇項目來源
  • 我們之前的一些選擇,會不斷縮小樣本范圍,所以我們發現Project選項下只有一個TCGA-PRAD,我們可不用點擊,不選擇表示該選項下的內容都要。
    Disease Type這里根據分析需要進行選擇,這里我為了統一病理類型,進行了選擇。
    Gender無特殊需要可不進行選擇。
    Vital Status一般我們需要進行生存分析的話,就選擇alive和dead的患者,not reported的患者表示生存資料不全,可以進行剔除。
    Age at Diagnosis以及Days to Death根據自己課題需要進行設定,一般情況下默認不設定篩選條件。


  • Race和Ethnicity一般情況下不設定篩選條件,并且這里的nor reported的樣本過于多,我們不進行篩選了,以免丟失過多樣本數。


3. 選擇組學數據類型及格式:

  • 點擊Files選擇數據類型及格式。
  • Data Category這里用最常見的轉錄組數據舉例,選擇transcriptome profiling.
  • Data Type選擇Gene Expression Quantification,代表蛋白編碼基因和長鏈非編碼基因的測序數據。miRNA基因的測序數據不包含在其中,需要選擇miRNA Expression Quantification而不是Gene Expression Quantification。
  • Experimental Strategy只有一個選擇,默認不選,Workflow Type根據自己需求,一般常用的是Counts數據或FPKM數據。
    *一般選到這里就不再點擊其他篩選條件了,而且一般其他選項也只剩一個選項了。
  • Access表明數據權限,我們普通用戶只能使用open的數據,如果出現了非開放的數據,記得這里只點擊open。


    選擇數據類型及格式

4. 下載選擇好的數據:

  • 將選擇好的數據加入購物車,隨后點擊Cart進入購物車界面。


    將選擇好的數據加入購物車
  • 在Cart界面分別點擊Metadata(下載注釋文件)以及Download(下載數據)。Download選項提供兩種數據下載途徑:Manifest表示下載Manifest文件后使用gdc-client軟件下載數據(gdc-client下載數據方法),這種方法適合下載大文件;Cart表示通過瀏覽器直接下載,該方法更方便,但是不適合下載很大的文件。
  • 至此TCGA數據下載已完成。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容