鏈接:http://genek.tv/,本文是該課程的學習記錄。
1.共表達
兩條基因的表達模式相似,即在某些樣本中兩條基因表達量都高,某些樣品中表達量都低。
用相關(guān)性系數(shù)r量化
-1<r<1
負值代表負相關(guān),0代表不相關(guān),正值代表正相關(guān)
2.網(wǎng)絡(luò)
1.相關(guān)概念
節(jié)點(node):圖上的圓點,每個圓點代表一個基因。
連接(link):圖上的線,每條線代表兩個基因的關(guān)系(可設(shè)置閾值,例如>0.7即標記相關(guān))
加權(quán)網(wǎng)絡(luò)(weighted network)與無權(quán)網(wǎng)絡(luò)(unweighted network)的區(qū)別是:加權(quán)網(wǎng)絡(luò)的線條有粗細之分,粗細表示權(quán)重。
鄰接度:節(jié)點之間的關(guān)系強弱。一個網(wǎng)絡(luò)里的所有基因形成一個鄰接矩陣(adjacency matrix)。
連通性(connectivity):反映節(jié)點的重要程度,與多少其他節(jié)點有關(guān),以及關(guān)系的強弱。
無權(quán)網(wǎng)絡(luò)不顯示權(quán)重,它的連通性只是連接基因的數(shù)目。
加權(quán)網(wǎng)絡(luò)的連通性是所有有關(guān)節(jié)點的關(guān)系強弱的疊加。
2.隨機網(wǎng)絡(luò)與無尺度網(wǎng)絡(luò)
無尺度網(wǎng)絡(luò)中,多數(shù)節(jié)點都只與幾個節(jié)點有關(guān)(紅色點);極少數(shù)節(jié)點與很多節(jié)點有關(guān)(藍色點)。如果將每個節(jié)點的連接數(shù)進行排序,會發(fā)現(xiàn)無尺度網(wǎng)絡(luò)的連通性符合冪律分布。
因此,一個模塊中有很多基因,但關(guān)鍵基因只有幾個。
3.分析步驟
第一步:數(shù)據(jù)預(yù)處理
(1)行名是樣本名,列名是基因名。如果拿到的是表達矩陣,需要轉(zhuǎn)置。
(2)去掉所有樣本中表達量都很低的基因
(3)去掉所有樣本中表達量幾乎沒有差異的基因,可用sd篩選,但不建議只保留差異基因(備注:這里說的差異基因,是指差異顯著的基因)。
第二步:構(gòu)建相關(guān)性矩陣
相關(guān)系數(shù)范圍是-1~1,WGCNA分析要求轉(zhuǎn)換為0-1范圍。
有兩種轉(zhuǎn)換方式:
unsigned:不區(qū)分正相關(guān)和負相關(guān)
signed:區(qū)分正負相關(guān)
第三步:構(gòu)建鄰接矩陣
多大的相關(guān)系數(shù)算相關(guān)?需要設(shè)置閾值。
軟閾值:soft threshold,用power函數(shù)將相關(guān)性矩陣轉(zhuǎn)換成鄰接矩陣,需要確定power的參數(shù)β。
迭代一系列值,看β等于哪個值時:(1)這個網(wǎng)絡(luò)更接近于無尺度網(wǎng)絡(luò)
(2)盡可能保留連通性信息。
左右兩張圖的橫坐標都是軟閾值,??左圖縱坐標是無尺度網(wǎng)絡(luò)的評價指標r2,r2越接近1,該網(wǎng)絡(luò)就越接近無尺度網(wǎng)絡(luò),通常要求>0.8或0.9。
??右圖縱坐標是平均連通性,該值隨β的增加而降低
綜合兩張圖,通常選r^2第一次達到0.8或0.9以上時的β值。
有了β值就可以根據(jù)公式將相關(guān)性矩陣轉(zhuǎn)換為鄰接矩陣。
第四步:構(gòu)建拓撲重疊矩陣
簡稱TOM(Topological Overlap Matrix),相關(guān)系數(shù)只考慮到兩個節(jié)點之間的線性關(guān)系,而TOM則是考慮到中間節(jié)點的(間接的)計算方法。
總結(jié):基因之間的關(guān)系/距離
第五步:構(gòu)建共表達網(wǎng)絡(luò)
對基因進行聚類,每條線代表一個基因,相似的基因被聚到一個分支。
第六步:模塊劃分
Dynamic Tree Cut,不同模塊用不同顏色表示,同一模塊的基因通常據(jù)有類似的功能。
第七步:合并相似模塊
第8步,模塊與性狀關(guān)聯(lián)
相關(guān)系數(shù)只能計算對應(yīng)的兩列,而表達矩陣是一個表格,而非一列。
方法是對一個模塊里的基因表達矩陣進行主成分分析,用第一個主成分(PC1)的的指標--特征向量(ME)代表一個模塊,得到模塊MEs矩陣。
可以計算每個模塊的特征向量與三個性狀之間的相關(guān)系數(shù),形成一個矩陣,可做熱圖。
第九步:GS和MM
GS代表模塊里的每個基因與形狀的相關(guān)性
MM代表單條基因和所在模塊之間的相關(guān)性,表示是否與模塊的趨勢一致。
第十步:Cytoscape可視化
微信公眾號生信星球同步更新我的文章,歡迎大家掃碼關(guān)注!
我們有為生信初學者準備的學習小組,點擊查看??
想要參加我的線上線下課程,也可加好友咨詢??
如果需要提問,請先看生信星球答疑公告