GEO數據挖掘
圖表介紹
1.熱圖
·輸入數據是數值型矩陣\數據框
·顏色的變化表示熟知的大小
2.散點圖和箱線圖
箱線圖:輸入數據是一個數值型向量和一個字符串向量(重復值)
箱線圖是單個基因在兩組之間的表達量差異
3.火山圖
Foldchange(FC):處理組平均值/對照組平均值
logFoldchange(logFC):Foldchange取log2
logFC>0,treat>control,基因表達量上升;
logFC<0,treat<control,基因表達量下降。
通常說的上調、下調基因是指表達量顯著上升 / 下降的基因,結合P值。
P值越小,越有統計學差異,-log10(Pvalue)越大
4.主成分分析
主成分分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標(即主成分)。
根據這些主成分對樣本進行聚類,代表樣本的點在坐標軸上距離越遠,說明樣本差異越大。
GEO背景知識
表達數據實驗設計
實驗目的:通過基因表達量數據的差異分析和富集分析來解釋生物學現象
GSM:用戶提交給GEO的樣本數據
GSE:一個完整的研究,并提供了整個研究的描述,包括對數據的描述,總結分析。
GPL:用戶測序使用的芯片/平臺。
基因表達芯片
探針的表達量反應基因的表達量
圖片.png
limma包用于表達芯片數據差異分析
轉錄組數據差異分析三大R包:limma(voom)、edgeR、Deseq2
探針注釋來源:
1.Biocoductor的注釋包
2.GPL的soft文件解析
3.官網下載對應產品的注釋表格
4.自主注釋