基因的差異表達,即發現一組在正常樣本和患病樣本中表達不同的基因。
差異基因的篩選方法
1、倍數變化(fold change)
最簡單的是閾值法,用倍數分析基因表達水平差異,即計算基因在兩個條件下表達水平的比值(癌癥和正常),確定比值的閾值,將絕對值大于此閾值的基因判斷為差異基因。
-
差異基因的上調和下調
我們一般使用
log2 (fold change)
。當expr(A) < expr(B)時,B對A的fold change就大于1,log2 fold change就大于0(見下圖),B相對A就是上調;當expr(A) > expr(B)時,B對A的fold change就小于1,log2 fold change就小于0;
通常為了防止取log2時產生NA,我們會給表達值加1(或者一個極小的數),也就是log2(B+1) - log2(A+1).
image
通常選擇2~3倍作為閾值,但對于低表達的基因,3倍也是噪音,那些高表達的基因,1.1倍都是生物學顯著了。更重要的沒有考慮到組內變異,沒有統計學意義。
2、統計檢驗
最常用的T-test、ANOVA(方差分析)或者稱為F檢驗。
對于
基因芯片
的數據而言,由于樣本服從正態分布
,所以可以用t-test(雙處理)或anova分析(多處理以上)。
二代測序
RNA-Seq
它的抽樣過程是離散的,結果是count,服從泊松分布,樣本間的差異是服從負二向分布
.
- 方差分析(ANOVA)和線性回歸分析(regression)都是同一時期發展的兩套緊密相連的理論。方差分析考量的是離散型自變量(因子)對連續型應變量(響應變量)的模型分析,而線性回歸分析只要求響應變量是連續的,對于自變量無要求。如果響應變量不是連續型分布,就要使用更加一般化的廣義線性模型(generalized linear model),通過一個連接函數變換響應變量期望,將響應變量的期望與自變量建立線性關系。
T-test 檢驗是差異基因表達檢測中常用的統計方法,通過合并樣本間可變的數據,來評價差異表達,用于判斷某一基因在兩個樣本中是否有差異表達。由于芯片實驗成本較高,樣本量較少,從而對總體方差的估計不很準確,T檢驗的檢驗效能降低。
3、SAM算法
SAM算法就是通過控制FDR值糾正多重假設檢驗中的假陽性率。SAM 方法檢驗差異表達,通過對分母增加一個常量 T 檢驗過程減小了假陽性發生的概率。根據文獻記載,相比較其他算法,SAM算法更為穩定,篩選出的結果也更為準確。SAM方法以q-value< 0.05作為篩選差異表達基因的標準,從公式上來看,p-value和q-value較為相似,而差異篩選是一個典型的多重假設檢驗過程。對于多重假設檢驗,單次檢驗中差異顯著基因的假陽性率(p-value較小)可能會較大,而q-value 和 FDR值較常見的BH校正方法得到的FDR值而言,改進了其對假陽性估計的保守性。
火山圖
火山圖可反映總體基因的表達情況,橫坐標代表log2(Fold Change),縱坐標表示-log10(P值),每個點代表一個基因,顏色用以區分基因是否差異表達,圖中橙色的點代表差異表達基因,藍色的點代表沒有差異表達的基因。
聚類圖
聚類圖可以衡量樣本或基因之間表達的相似性。 如上圖所示的聚類圖中,橫坐標代表樣本聚類,一列代表一個樣本,聚類基于樣本間基因表達的相似性,樣本間基因表達越接近,靠的越近,以此類推。 縱坐標代表基因聚類,一行代表一個基因,聚類基于基因在樣本中表達的相似性,基因在樣本中表達越接近,靠的越近,以此類推。 色階代表基因表達豐度,越紅代表上調得越明顯,越綠代表下調得越明顯。
REF:
http://www.lxweimin.com/p/b55276e46f0c
https://blog.csdn.net/u012325865/article/details/87344725