為了充分利用組學技術的進步,更全面地了解人類疾病,需要新的計算方法對多種類型的組學數據進行綜合分析。2021年6月《Nature Communications》發表了一個有監督的多組學數據分析新方法:MOGONE,它是第一個利用圖卷積網絡(GCNs)?進行組學數據學習以對新樣本進行有效類別預測的有監督的多組學集成方法。
多年來,人們提出了許多方法來對各種問題進行多組學數據整合。然而,大多數現有的研究集中于無監督的多組分數據整合。隨著個性化醫療的快速發展,具有詳細注釋的管理數據集(用于描述樣本的表型或特征)變得越來越廣泛。因此,有監督的多組學整合方法越來越受到關注,這種方法可以識別疾病相關的生物標志物并對新樣本進行預測。
MOGONE是什么?
MOGONET是一個用于生物醫學分類任務的多組學數據分析框架,其在標簽空間將組學特定學習與多組學綜合分類相結合。具體而言,MOGONET利用GCNs進行組學特定學習。與全連通的神經網絡相比,GCN充分利用了相似網絡描述的組學特征和樣本間的相關性,提高了分類性能。除了直接連接每個組學數據類型的標簽分布外,MOGONET還利用視圖相關性發現網絡(VCDN)探索標簽空間的交叉組學相關性,以實現有效的多組學集成。
在預處理和特征預選以去除噪聲和冗余特征之后,MOGONET首先使用GCN分別學習每種組學數據類型的分類任務。然后,進一步利用每個特定于組學的GCN生成的初始預測來構建跨組學發現張量,該張量反映了跨組學標簽的相關性。最后,跨組學發現張量被重新塑造成一個向量并轉發到VCDN以進行最終的標簽預測。VCDN可以通過探索更高級別標簽空間中不同組學數據類型的潛在相關性,有效地整合來自每個特定組學網絡的初始預測。MOGONET是一個端到端的模型,組學特定的GCN和VCDN交替訓練直到收斂。
MOGONE的功能測試
研究團隊通過廣泛的生物醫學分類應用,包括阿爾茨海默病患者分類、腦低級別膠質瘤(LGG)的腫瘤分級分類、腎癌類型分類和浸潤性乳腺癌亞型分類,展示了MOGONET的功能和通用性;指出了整合多種組學數據類型的必要性,以及通過綜合消融研究結合GCN和VCDN進行多組學數據分類的重要性;此外還證明了MOGONET可以識別與所研究的生物醫學問題相關的重要組學特征和生物標記。
MOGONET在各種分類任務中優于現有有監督的多組學集成方法。研究團隊比較了MOGONET與9種現有的組學數據分類算法的分類性能,觀察到MOGONET在大多數分類任務中的表現優于其他方法,唯一的例外是在LGG等級分類中,XGBoost和MOGONET的平均AUC相同。
MOGONET 在各種分類任務中的表現優于其變化。為了檢驗GCN和VCDN對有效的多組學數據分類的必要性,研究團隊對其提出的方法進行了廣泛的消融研究,其中比較了MOGONET的三種額外變化(NN_NN、NN_VCDN、MOGONET_NN),觀察到MOGONET在所有分類任務中都優于NN_NN和NN_VCDN。雖然MOGONET_NN在LGG等級分類等任務中取得了與MOGONET相似的性能,但在所有分類任務中,MOGONET始終比MOGONET_NN產生更好的平均度量。
MOGONET可以擴展到不同數量的組學數據類型。為了證明MOGONET在不同數據模式選擇下的有效性,研究團隊僅使用兩種類型的組學數據:mRNA和DNA甲基化數據,在BRCA數據集上比較了其與其他方法的性能,觀察到與三種不同的組學數據類型的情況類似,當使用mRNA和DNA甲基化數據進行訓練時,MOGONET仍然始終優于BRCA數據集上的現有方法。
另外,研究團隊在mRNA、DNA甲基化和miRNA數據上證明了在生物醫學應用中整合多種類型的組學數據以提高分類性能的必要性,同時進一步證明了GCN在組學數據分類問題中的有效性,以及使用VCDN對組學數據進行跨組學學習的有效性。
MOGONET在不同超參數k下保持性能穩定。為了進一步證明超參數k在二元分類和多類分類任務中對MOGONET性能的影響,研究團隊使用ROSMAP數據集和BRCA數據集在廣泛的k值下訓練MOGONET,觀察到MOGONET的分類性能隨著k的變化而波動,但MOGONET對k的變化仍然是穩健的,因為它在不同的k值下一直優于現有方法
MOGONET鑒定的重要生物標志物。通過MOGONET鑒定的生物標志物在每種疾病中的功能和富集的生物過程方面是相當多樣化的。對于AD患者分類,MOGONET將8個mRNA特征、5個DNA甲基化特征和17個miRNA特征確定為前30個重要的生物標記物;對于BRCA PAM50亞型分類,MOGONET將15個mRNA特征、9個DNA甲基化特征和6個miRNA特征確定為前30個重要的生物標記物;同時,MOGONET鑒定的高等級基因和miRNA也被證明與AD和乳腺癌相關。
此外,研究團隊還通過對BRCA數據集中來自不同機構的不同患者隊列進行訓練和測試來評估其性能,觀察到MOGONET與隨機劃分訓練和測試樣本的實驗取得了相似的性能,這表明MOGONET模型可以推廣到同一分類任務的不同數據集。
雖然文中涉及的多組學分類任務中只利用了mRNA、DNA甲基化和miRNA數據,但特定于組學的GCN和多組學整合組件都可以被擴展以適應不同或更多類型的數據。因此,MOGONET是一個有監督的多組學分類框架,可以被推廣以適應許多不同的組學數據類型,其具有卓越的性能和良好的可解釋性。
文中涉及的源代碼可以從GitHub下載:https://github.com/txWang/MOGONET
首發公號:國家基因庫大數據平臺?
參考文獻
Wang, T., Shao, W., Huang, Z.?et al.?MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification.?Nat Commun?12,?3445 (2021).?
圖片來源于NC官網和參考文獻,如有侵權請聯系刪除。