TCGA數據庫:主要儲存關于各類腫瘤的一個基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,是目前為止可以獲得的公開數據庫里面數據相對全面的一個,33種癌癥類型,在各個領域得到了廣泛的應用,為腫瘤基礎醫學和轉化醫學研究者提供了海量的基因組數據和與其關聯的臨床數據。網址:https://portal.gdc.cancer.gov/? ? ?
TCGA只對授權的用戶開放Level1-Level3數據訪問的權限,而普通用戶只能訪問Level3的分析結果,這些用戶也不能有效結合重要的臨床信息進行數據的深入挖掘,嚴重限制用戶對數據的有效利用。(我摘錄的,也不明白說的啥)
將TCGA數據下載之后要用第三方工具進行分析。?
進入網站怎么尋找自己想要的數據:說實話我剛進去都不認識這個界面,要去拿個視頻看看了。Repository→cases→腫瘤原發部位、項目、疾病類型,比如選擇結直腸、TCGA、腺癌或腺瘤→File,選擇需要下載文件的數據類型,如果需要下載的是RNAseq數據,就要在Transcriptome Profiling前面打鉤→Data Type選擇Gene Expression Quantification→Experimental Strategy選擇RNA-seq→workflow type有三種數據類型可供選擇,分別是counts,FPKM和FPKM-UQ,分別表示counts數和兩種歸一化后的值,推薦下載counts數據,counts可以用來差異分析,FPKM是矯正后的數據,可以直接用來轉化→Add All Files to Cart→右上角CART→download→manifest文件(<50M可以直接下載,>50M要借助下載工具,即Data Transfer TooL)////cart文件///meta文件///clinical josn文件
下載工具的網站:(gdc-client)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? https://gdc.cancer.gov/access-data/gdc-data-transfer-tool→4.0?64z.p(manifest和gdc-client安裝包共同下載)→將其解壓
將manifest文件與下載后及解壓后的文件放在同一文件夾,如圖:
復制文件夾路徑,打開cmd命令系統(win+R,輸入cmd)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 輸入cd 空格 和路徑? 回車后電腦命令系統進入該界面。 直接輸入解壓后文件的文件名稱 空格 download 空格 -m manifest文件名稱。回車后即可繼續下載文件。
下載的文件與之前下載的cart文件解壓后的結果一樣,應保存在一個文件夾之內。