pyWGCNA數據準備

這是進行任何網絡分析的第一步。我們在這里展示如何加載典型的表達數據,將其預處理成適用于網絡分析的格式,并通過刪除明顯的異常樣本和基因來清理數據。

Input data format

我們將原始表達數據以及相關信息以AnnData格式存儲在名為geneExpr的變量中。基因表達數據、基因元數據和樣本元數據可以作為 AnnData 對象一起傳遞給 PyWGCNA,也可以分別作為一系列矩陣傳遞。

AnnData 數據格式

如果您已經將表達數據存儲在 AnnData 格式中,您可以通過將變量以 AnnData 格式傳遞來定義 PyWGCNA 對象。請注意,AnnData.X 應該是表達矩陣,AnnData.var 應該包含每個基因的信息,而 AnnData.obs 應該包含每個樣本的信息。您可以在此處閱讀有關 AnnData 格式的更多信息。點擊這里-->

基因表達、樣本元數據和基因元數據的單獨矩陣

用戶可以傳遞各自的文件路徑,分別用于基因表達、樣本元數據和基因元數據,格式如下所示。

基因表達矩陣

表達矩陣應按照樣本對應行,基因對應列的格式進行排列。第一列應表示樣本ID或樣本名稱。接下來的列應包含唯一的基因ID或基因名稱。

sample_id ENSMUSG00000000003 ENSMUSG00000000028 ENSMUSG00000000031 ENSMUSG00000000037
sample_11615 12.04 11.56 16.06 13.18
sample_11616 1.35 1.63 1.28 1

Gene metadata

基因元數據是一個表格,包含有關每個基因的其他信息,例如基因生物類型或基因長度。每一行應表示一個基因,每一列應表示一個基因特征,其中第一列包含與基因表達矩陣中使用的相同基因標識符。行的順序應與基因表達矩陣的列相同,或者用戶可以指定 order=False

gene_id gene_name gene_type
ENSMUSG00000000003 Pbsn protein_coding
ENSMUSG00000000028 Cdc45 protein_coding
ENSMUSG00000000031 H19 lncRNA
ENSMUSG00000000037 Scml2 protein_coding

Sample metadata

樣本元數據是一個表格,包含有關每個樣本的其他信息,例如時間點或基因型。每一行應表示一個樣本,每一列應表示一個元數據特征,其中第一列包含與基因表達矩陣中使用的相同樣本標識符。行的順序應與基因表達矩陣的行相同,或者用戶可以指定 order=False

Sample_id Age Tissue Sex Genotype
sample_11615 4mon Cortex Female 5xFADHEMI
sample_11616 4mon Cortex Female 5xFADWT

其他參數

以下是可以指定的其他參數。

  • name: 用于可視化數據的WGCNA的名稱(默認:WGCNA
  • save: 是否保存重要步驟的結果(如果要設置為True,您應該對輸出目錄具有寫訪問權限)
  • outputPath: 要保存數據的位置,否則將存儲在與代碼相同的目錄中。
  • TPMcutoff: 用于刪除基因的TPM截斷值
  • networkType: 生成網絡的類型({unsignedsignedsigned hybrid},默認:signed hybrid
  • adjacencyType: 使用的鄰接矩陣類型({unsignedsignedsigned hybrid},默認:signed hybrid
  • TOMType: 使用的拓撲重疊矩陣(TOM)的類型({unsignedsigned},默認:signed

有關這些參數的詳細文檔,請參閱此處

數據清理和預處理

PyWGCNA可以根據以下標準清理輸入數據:

  1. 刪除所有樣本中表達量低于TPMcutoff值(默認值)的基因。
  2. 使用goodSamplesGenes()函數查找具有過多缺失值的基因和樣本。
  3. 對樣本進行聚類(使用來自scipyhierarchical clustering),以查看是否存在明顯的異常值。用戶可以通過指定cut值來定義層次聚類的高度。默認情況下,通過層次聚類不刪除任何樣本。
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,362評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,013評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,346評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,421評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,146評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,534評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,585評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,767評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,318評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,074評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,258評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,828評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,486評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,916評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,156評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,993評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,234評論 2 375

推薦閱讀更多精彩內容