轉錄組中的基因表達模式聚類分析

歡迎關注”生信修煉手冊”!

實驗設計對于轉錄組數據的分析是非常重要的,對于常規的case/control實驗設計,通過兩組間的差異檢驗就可以得到不同條件下的差異基因;對于多組的實驗設計,可以每兩組之間進行差異分析,也可以通過annova的檢驗,得到差異基因。

在多組的實驗設計中,有一種類型非常特殊,就是時間序列。這里的時間序列不僅僅指的是單純的不同時間點取樣,也包括生成發育的不同階段,疾病治療的不同階段等。生命活動是一個動態變化的過程,通過時間序列的實驗設計可以有效的挖掘基因的表達規律。

對于時間序列的實驗而言,通常會有多個時間點的設計,當然我們也可以兩兩之間進行差異分析,或者所有時間點進行方差分析,但是這樣得到的差異基因并不能有效的代表整個時間序列中的變化,而且兩兩分析會得到很多的差異基因列表,也增加了后續生物學規律的挖掘的難度。

為了有效利用時間序列的信息,科學家們提出了一種新的分析策略,就是基因表達模式聚類。所謂的表達模式,其實就是基因表達量隨著時間點變化的一個規律,比如對于一個疾病的臨床治療而言,選擇患病,藥物治療,治愈后3個時間段分析,我們希望看到藥物治療對疾病是有效的,與此相關的表達模式包括以下兩種

這種先上調后下調的變化規律就是一個特定的表達模式,符合某種特定模式的基因可能是參與相同的代謝通路,也可能是受到了相同分子的調控。對于特定表達模式下的基因進行GO, KEGG等功能富集分析,有助于挖掘潛在規律。

不同于傳統的差異分析,基因表達模式聚類分析中更關鍵的是篩選感興趣的表達模式,即表達量的變化規律,然后對給模式下的基因進行后續的功能富集分析。

能夠進行基因表達模式聚類分析的軟件有很多,STEM自帶圖形界面,操作簡單,是使用的較為廣泛的軟件之一,官網如下

http://www.cs.cmu.edu/~jernst/stem/

該軟件適用于處理時間節點較少的數據,比如8個或者更少,因為時間點越多,計算量越大,計算時間會特別長,占用的硬件資源也會更多。同時該軟件集成了Gene Ontology數據庫,可以方便的對特定表達模式下的基因進行GO富集分析。

該軟件的安裝非常簡單,下載安裝包,雙擊jar文件即可啟動。界面如下

界面分為4個部分,第一部分為Expression Data Info, 用于加載基因的表達量數據,第二部分為Gene Info, 用于加載基因對應的注釋信息,第三部分為Options, 用于設置聚類的算法和參數,第四部分為Execute, 用于執行程序。

1. Expression Daa Info

該軟件支持讀取芯片和NGS兩種數據,通過Data File加載表達量文件,表達量文件的格式如下

第一列為SPOT, 代表探針ID, 每個探針ID必須是唯一的,對于NGS數據,可以不要這一列信息;第二列為Gene Symbol, 如果沒有gene symbol信息,對應的單元格為空或者用0填充,其他列為每個時間點對應的表達量,時間點按照順序排列,表達量允許為空。

如果每個時間點有生物學重復的話,可以通過Repeat Data加載生物學重復的表達量文件,格式和上述格式完全一樣,要注意的一點就是行列必須和Data File文件中一致,這意味著每個時間點的生物學重復個數必須一致。

在芯片中會出現多個探針對應同一個基因的情況,該軟件會將同一個基因的多個探針的表達量取中位數,作為該基因的表達量;對于生物學重復,也是取中位數作為最終的表達量。

對于生物學重復個數不同的情況,可以自己先合并生物學重復,即選取中位數作為表達量,然后在進行分析。

上傳成功后,通過View Data File按鈕進行查看,示意如下

在進行聚類前,該軟件首先會對原始的表達量進行轉化,有以下3種策略

  1. Log normalize data

  2. Normalize data

  3. No normalization/add 0


具體的轉換規則如下

將第一個時間點作為control, 將其表達量定義為0, 其他的時間點依次與第一個時間點原本的表達量進行比較。通常我們選擇log轉換的方法。

從這里可以看出,STEM并不會對輸入的原始數據進行樣本間的歸一化,所以我們的輸入數據必須是可以直接在樣本間比較的表達量,對于raw count的定量方式而言,需要輸入歸一化之后的表達量。

2. Gene ?Info

STEM支持自定義基因注釋,格式如下

第一列為基因或者探針ID,第二列為對應的注釋,多個注釋用分號:,逗號或者 | 分隔。

3. Options

STEM支持以下兩種聚類方法:

  1. STEM

  2. K-means


默認選擇STEM聚類算法,該算法需要調整以下兩個參數

每一個特定的表達模式稱之為model profile, STEM通過第二個參數控制兩個時間點間基因變化趨勢的類別,這個參數可以看做差異的倍數,默認值為2,示意圖如下

對于兩個連續的時間點而言,STEM在判斷變化趨勢時不是簡單的上調和下調兩種,而是根據差異的倍數進行了細分,在上圖中,根據差異的倍數可以劃分出5個趨勢,第一個為上調倍數2倍以上,第二個為上調倍數在1倍到2倍之間,第三個為差異倍數在1倍以內,第四個為下調倍數在1倍到2倍之間,第五個為下調倍數在2倍以上。

C代表上面的倍數值,用n代表時間點的個數,則所有可能的profile的個數為


當時間點較多時,所有的profiile太多了,根本看不過來,所以需要對其過濾,最終挑選出多少個profile 則有第一個參數控制。STEM根據profile之間的距離,從所有的profile中挑選出距離最大的N個profile, 任意兩個profile間的距離都很大,意味著它們是完全不同的profile。

在profile中,有一部分是由于生物學規律的影響而出現的特定表達模式,有一部分是隨機出現的,為了剔除這部分隨機性的profike, 通過特定的統計模型計算每個profile的p值,p值小于0.001的認為是真實的, 有研究價值的profile。

運行完成后,會產生如下的結果

每個profile對應一個矩形,在矩形左上角的數字為profile的編號,從0開始,其中的折線為表達量隨時間變化的趨勢,有顏色標記的是p值小于0.001的profile。
每個profile都是可以點擊的,點擊之后可以看到該profile下所有基因的變化趨勢圖

Profile Gene Table可以看到該profiel下具體的基因列表和轉換后的表達量,示意如下

這個列表可以導出,對于感興趣的profile, 可以導出該profile下的基因,去做pathway等富集分析。

以上就是該軟件的基本用法,更加詳細的用法請參考官方文檔。

·end·

—如果喜歡,快分享給你的朋友們吧—


掃描關注微信號,更多精彩內容等著你!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容