R語言挖掘GEO數據庫實戰之-GEO數據庫的構成及網頁點擊下載

基于web工具,用戶可以對GEO存儲的大量數據進行瀏覽,查詢和可視化。通過四種編號GPLGDSGSEGSM可以獲得完整的平臺,數據集,系列以及樣本的信息.

其中屬于用戶提交的原始數據包括:GPL(Platform),GSM(Sample),GSE(Series)。GEO數據庫整理后的數據包括:數據集GDS(DataSets), 表達譜(Profiles).GEO根據平臺,數據集,系列和樣本四種形式組織數據。

平臺(Platform,GPLXXX)檢索

平臺信息是由微陣列的簡要描述和用來確定微陣列模板的數據表構成。最基本的平臺想信息是探針列表,它們規定了哪些基因可以在該芯片平臺上被檢測出來,平臺編號以GPL為起始。以GPL6244為例點擊網址.

步驟如下:
1.在GEO主界面點擊Platform,進入平臺檢索界面;

GPL1.jpg

2.檢索框中輸入檢索號GPL6244,點擊search;跳轉至檢索結果。

GPL2.jpg

3.點擊下圖中的“GPL6244”跳轉至詳細信息。

GPL3.jpg

4.平臺包含的信息介紹
打開網址看到平臺信息主要包括兩個部分,上半部分主要是平臺信息的描述(見下圖1),下半部分是平臺數據信息描述(見下圖2)。

平臺描述.jpg
表格信息.jpg

平臺(Platform,GPLXXX)數據下載

  1. Platform包含的文件,
    一個platform通常包含3種文件:分別是soft文件,minimal文件以及suppl文件,這里我們重點介紹soft文件,soft文件位置見下圖:
GPL4.jpg

找到下載文件,soft文件(這里用的例子的文件很大,等待的時間會長些)

soft1.jpg

soft文件下載好了以后,對文件進行解壓,將文件的后綴改為“xls”或“xlsx”,用Excel打開該文件,然后我們對soft 文件內容進行解讀:soft和miniml都是顯示的platform的基礎信息。在soft文件中,每種類型的信息以^開頭,這里介紹常見的幾種類別:

(1)DATABASE代表GEO數據庫的基本信息;

(2)PLATFORM代表該平臺的基本信息;

(3)SAMPLE代表用該平臺得到的樣本信息;

(4)SERIES代表使用該平臺得到的一組樣本。

在每種類別中,!開頭代表一種類型的信息,常規格式為key = value

對于芯片平臺而言,還會提供探針和基因之間的對應關系等信息,在對應的網頁上,我們可以看到如下的表格:

soft2.jpg

miniml中的內容和soft是一樣的,只是用XML格式來存儲上述信息,而supplement file則是由提交者自己上傳的一些補充文件,沒有明確的格式。

樣本(Sample,GSMXXX)

在基因芯片實驗中,一個樣本中所有基因的表達水平通常由一張芯片來檢測,樣本信息由檢測的生物材料的描述,所遵循的實驗協議和包含檢測豐度值的數據表構成,樣本編號以GSM為起始。

我們以GSM247678為例,進行檢索。打開GEO數據庫官網,(網址:點擊網址.),進入檢索頁面如下圖:

GSM1.jpg

點擊samples跳轉至樣本平臺見下圖:

GSM2.jpg

在檢索框中輸入GSM247678,點擊search,跳轉至檢索結果,見下圖:

GSM3.jpg

點擊下圖GSM247678,跳轉樣本檢索結果。

GSM4.jpg

通過下圖第一部分可以看到GSM247678樣品的描述信息

GSM5.jpg

通過下圖第二部分可以看到GSM247678樣品所用的芯片平臺和系列信息。

GSM6.jpg

然后我們通過下圖可以查看全部表格數據和下載原始數據。

GSM7.jpg

系列(Series,GSEXXX)

系列是由數據提供者交給GEO的一次實驗的基因芯片數據,這些數據具有明確的研究目的,是用戶使用GEO時經常采用的一種數據查詢和下載方式,系列編號以GSE為起始。

接下來我們以GSE24673為例,介紹GSE系列數據的檢索和結果解讀。

首先打開GEO數據庫官網(網址:點擊網址.),點擊Series 進入檢索頁面如下圖:

GSE1.jpg

點擊Series,跳轉至系列,見下圖:

GSE2.jpg

在檢索框中輸入GSE24673,點擊search命令,結果見下圖:

GSE3.jpg

點擊檢索框中的GSE24673,調整至檢索結果,,這一部分主要描述的是GSR系列的一些基本信息,包括文章題目,摘要,種屬等,詳細說明見下圖:

GSE4.jpg

這一部分主要描述的是所使用的芯片平臺信息以及樣本信息,詳細見下圖:

GSM5.jpg

這一部分描述的是GSE提供的下載文件,包括SOFT文件,MINIMl 文件,Series Matrix File(s)以及原始數據文件,數據分析時,我們會用到Series Matrix File(s)文件或者原始數據詳細見下圖:

GSE6.jpg

正確的分析是建立在對數據的正確理解之上,所以在做分析之前,我們需要理解數據的基本信息,最基本的幾條內容:第一從Title 翻譯到 Over design,了解文章的標題物種實驗類型摘要總體設計。其他需要關注的問題就是系列中的樣本數量,N個樣本按照實驗設計是如何分組的,分成幾組。

最后,謝謝各位伙伴的支持,我是青鹽,一個自學生信,并致力于在新疆推廣生信分析技能的菜鳥,今天給大家分享的內容就到這,青鹽在這里與每一位生信自學者共學,共勉,加油加油。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容