數據挖掘20210114學習筆記

GEO數據挖掘

圖表介紹

1.熱圖

·輸入數據是數值型矩陣\數據框
·顏色的變化表示熟知的大小

2.散點圖和箱線圖

箱線圖:輸入數據是一個數值型向量和一個字符串向量(重復值)
箱線圖是單個基因在兩組之間的表達量差異

3.火山圖

Foldchange(FC):處理組平均值/對照組平均值
logFoldchange(logFC):Foldchange取log2
logFC>0,treat>control,基因表達量上升;
logFC<0,treat<control,基因表達量下降。
通常說的上調、下調基因是指表達量顯著上升 / 下降的基因,結合P值。
P值越小,越有統計學差異,-log10(Pvalue)越大

4.主成分分析

主成分分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標(即主成分)。
根據這些主成分對樣本進行聚類,代表樣本的點在坐標軸上距離越遠,說明樣本差異越大。

GEO背景知識

表達數據實驗設計

實驗目的:通過基因表達量數據的差異分析和富集分析來解釋生物學現象
GSM:用戶提交給GEO的樣本數據
GSE:一個完整的研究,并提供了整個研究的描述,包括對數據的描述,總結分析。
GPL:用戶測序使用的芯片/平臺。

基因表達芯片

探針的表達量反應基因的表達量

圖片.png

limma包用于表達芯片數據差異分析
轉錄組數據差異分析三大R包:limma(voom)、edgeR、Deseq2
探針注釋來源:
1.Biocoductor的注釋包
2.GPL的soft文件解析
3.官網下載對應產品的注釋表格
4.自主注釋

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容