星辰视频在线观看电影,日本少妇做爰全过程毛片,国模冰莲自慰肥美胞极品人体图

前言

前面，我們介紹過了差異基因的功能富集分析，今天，我們對這部分的內容作一些補充

主要介紹一下 GEVA、ssGSEA 和單基因的富集分析

GSVA

我們知道，GSEA 富集分析方法是針對兩組樣本來進行評估的，也就是說對基因列表的排列方式是根據基因與表型的相關度（例如，FC 值）來計算的，無法對單個樣本使用

其富集分數（Enrichment Score，ES）的計算方式為

依次判斷基因列表中的基因是否在基因集合中，如果在基因集合中，則 ES 加上該基因與表型的相關度，如果不是集合中的基因，則減去對應的值，最后可以計算出一個最大 ES。

Gene Set Variation Analysis（GSVA）與 GSEA 的原理類似，只是計算每個基因集合在每個樣本中的 enrichment statistic（ES，或 GSVA score），其算法流程如下

不同于 GSEA 之處在于，對于不同的數據類型（只支持 log 表達值或原始的 read counts 值），假設了不同的累積密度函數（cumulative density function，CDF）

芯片數據：正態分布密度函數
RNA-seq 數據：泊松分布密度函數

而且，GSVA 是為每個樣本的每個基因計算對應的 CDF 值，然后根據該值對基因進行排序，這樣，每個樣本都有一個從大到小排序的基因列表

對于某一基因集合，計算其在每個樣本中的 ES 值，也就是評估基因集合在基因列表中的富集情況。

例如，我們有一個排序后的樣本

基因集合包含：B、E、H，我們可以繪制這樣一張 K-S 分布圖

x 軸為排序后的基因順序，依照這一順序，如果基因在集合內，則累積和會加上該基因的值（與基因的順序有關，排名越靠前值越大），否則累積和不變。

將基因列表分為基因集內核基因集外兩個集合，就可以繪制兩個分布（紅色和綠色曲線），分別計算兩個分布之間的最大間距，以基因集內的分布值更大視為正間距（即紅色曲線更高），兩個最大間距之和即為該基因集的 ES 值

這樣，就把基因水平的表達矩陣轉換成了基因集水平的評分矩陣，可以使用差異表達基因識別算法，尋找顯著差異的基因集，從而達到類似功能富集的作用

1. GSVA 分析

先獲取基因表達矩陣，我們使用 TCGA 肺腺癌和肺鱗癌各 10 個樣本的 read counts 數據

library(TCGAbiolinks)

# 獲取表達矩陣
get_count <- function(cancer, n = 10) {
  query <- GDCquery(
    project = cancer,
    data.category = "Gene expression",
    data.type = "Gene expression quantification",
    platform = "Illumina HiSeq",
    file.type  = "results",
    sample.type = c("Primary Tumor"),
    legacy = TRUE
  )
  # 選擇 n 個樣本
  query$results[[1]] <-  query$results[[1]][1:n,]
  GDCdownload(query)
  # 獲取 read count
  exp.count <- GDCprepare(
    query,
    summarizedExperiment = TRUE,
  )
  return(exp.count)
}

luad.count <- get_count("TCGA-LUAD")
lusc.count <- get_count("TCGA-LUSC")

dataPrep_luad <- TCGAanalyze_Preprocessing(
  object = luad.count,
  cor.cut = 0.6,
  datatype = "raw_count"
)

dataPrep_lusc <- TCGAanalyze_Preprocessing(
  object = lusc.count,
  cor.cut = 0.6,
  datatype = "raw_count"
)
# 合并數據并使用 gcContent 方法進行標準化
dataNorm <- TCGAanalyze_Normalization(
  tabDF = cbind(dataPrep_luad, dataPrep_lusc),
  geneInfo = TCGAbiolinks::geneInfo,
  method = "gcContent"
)
# 分位數過濾
dataFilt <- TCGAanalyze_Filtering(
  tabDF = dataNorm,
  method = "quantile",
  qnt.cut =  0.25
)

# 將數據拆分
luad.exp <- subset(dataFilt, select = luad.count$barcode)
lusc.exp <- subset(dataFilt, select = lusc.count$barcode)

我們使用 GSVA 包提供的 gsva 函數來將基因表達矩陣轉換為基因集分數矩陣

library(GSVA)
library(GSEABase)

# 讀取從 GSEA 官網下載的通路數據
c2gmt <- getGmt("~/Downloads/data/pathway/c2.cp.v7.2.symbols.gmt")
# 刪選出常用的這三個數據庫中的通路
gene.set <- c2gmt[grep("^KEGG|REACTOME|BIOCARTA", names(c2gmt)),]
# gsva 分析，read counts 使用泊松分布，通路至少包含 10 個基因
gs.exp <- gsva(dataFilt, gene.set, kcdf = "Poisson", min.sz = 10)

雖然 GSVAdata 包提供了通路數據 c2BroadSets 是基因 ID，但我們的基因表達數據的行是基因 Symbol，所以通路信息也必須是 Symbol 格式，要進行格式轉換，比較麻煩

所以我們使用 GSEABase 包提供的 getGmt 函數來讀取從 GSEA 官網下載的 C2 通路信息

得到結果如下，共包含 1511 條通路

然后，使用差異基因識別方法

2. 差異分析

我們使用 limma 分析差異通路

DEA.gs <- TCGAanalyze_DEA(
  mat1 = gs.exp[, colnames(luad.exp)],
  mat2 = gs.exp[, colnames(lusc.exp)],
  metadata = FALSE,
  pipeline = "limma",
  Cond1type = "LUAD",
  Cond2type = "LUSC",
  fdr.cut = 0.05,
  logFC.cut = 0.5,
)

通過設置 FDR = 0.05，logFC = 0.5 共篩選出 40 條差異通路

查看通路的火山圖

我們可以一起看下基因的火山圖

DEA.gene <- TCGAanalyze_DEA(
  mat1 = luad.exp,
  mat2 = lusc.exp,
  metadata = FALSE,
  pipeline = "limma",
  Cond1type = "LUAD",
  Cond2type = "LUSC",
  fdr.cut = 0.01,
  logFC.cut = 1
)

總共識別出 804 個差異表達基因

ssGSEA

single sample Gene Set Enrichment Analysis (ssGSEA) 是針對單個樣本進行 GSEA 分析，其基因列表的排序方式和 ES 的計算方式都是依賴于樣本中基因的表達值，而不再是依賴基因與表型的相關度

使用方式也很簡單，只要在 gsva 函數中指定 method = "ssgsea"，例如

res.ssgsea <- gsva(dataFilt, gene.set, method = "ssgsea", kcdf = "Poisson", min.sz = 10)

也可以進行差異分析

DEA.ssgsea <- TCGAanalyze_DEA(
  mat1 = res.ssgsea[, colnames(luad.exp)],
  mat2 = res.ssgsea[, colnames(lusc.exp)],
  metadata = FALSE,
  pipeline = "limma",
  Cond1type = "LUAD",
  Cond2type = "LUSC",
  fdr.cut = 0.05,
  logFC.cut = 0.1,
)

或者繪制熱圖

annotation_col <- data.frame(sample = rep(1:2, each = 10))
rownames(annotation_col) <- colnames(res.ssgsea)
pheatmap(
  res.ssgsea[rownames(DEA.ssgsea),],
  show_colnames = F,
  # 不展示行名
  cluster_rows = F,
  # 不對行聚類
  cluster_cols = F,
  # 不對列聚類
  annotation_col = annotation_col,
  # 加注釋
  cellwidth = 5,
  cellheight = 5,
  # 設置單元格的寬度和高度
  fontsize = 5
)

單基因富集分析

單基因富集分析并不是說拿單個基因來進行富集分析，單個基因怎么能進行富集分析呢？一個基因根本沒法進行統計檢驗。

其實，這里說的單基因并不是拿單個基因來富集，而是基于單個基因來進行富集分析，這個“基于”，就是以單個基因為基礎，向外擴展，抓取與其相關的基因，然后用這些相關的基因來進行功能富集

所以，要理解這個單基因富集分析的意思，這樣一說就已經很明了了。針對單個基因我們可以做什么？

主要有兩種做法：

定性分組：我們可以根據給定基因的表達值對樣本進行分組，然后識別在兩組樣本之間差異表達的基因，最后用這些差異表達基因來進行功能富集
定量相關：通過計算其他基因與目標基因表達之間的相關性，將具有顯著相關的基因作為一個集合，也可以進行富集分析

1. 定性分組

我們以 CCDC134 基因為例，以該基因表達值的中位值來對樣本進行分組

gene <- "CCDC134"
gene.exp <- dataFilt[gene,]

label <- if_else(gene.exp < median(gene.exp), 0, 1)

group.low <- dataFilt[,label == 0]
group.high <- dataFilt[,label == 1]

識別兩組樣本之間的差異表達基因

DEGs <- TCGAanalyze_DEA(
  mat1 = group.low,
  mat2 = group.high,
  metadata = FALSE,
  pipeline = "limma",
  Cond1type = "CCDC134_Low",
  Cond2type = "CCDC134_High",
  fdr.cut = 0.01,
  logFC.cut = 1,
)

共識別出 873 個差異表達基因

2. 定量相關

我們對其他基因與 CCDC134 基因進行相關性檢驗，由于基因較多，我們使用并行的方式來計算

library(future.apply)

batch_cor <- function(exp, gene){
  y = as.numeric(exp[gene,])
  gene_list = rownames(exp)
  gene_list = gene_list[rownames(exp) != gene]
  do.call(rbind, future_lapply(gene_list, function(x){
    ct  <- cor.test(as.numeric(exp[x,]), y, type='spearman')
    data.frame(key = gene, gene = x, cor = ct$estimate,p.value = ct$p.value )
  }))
}

plan(multiprocess)
system.time(res.cor <- batch_cor(dataFilt, gene))

對結果進行過濾，篩選出顯著相關且相關系數的絕對值大于 0.6 的基因，共篩選出 232 個基因

cor.genes <- filter(res.cor, p.value < 0.05 & abs(cor) > 0.6)

3. 富集分析

格式化識別出的差異基因

library(clusterProfiler)
library(org.Hs.eg.db)
library(enrichplot)

gene.id <- bitr(
  rownames(DEGs), fromType = "SYMBOL",
  toType = "ENTREZID",
  OrgDb = org.Hs.eg.db
)

go <- enrichGO(
  gene = gene.id,
  OrgDb = org.Hs.eg.db,
  ont = "ALL",
  pAdjustMethod = "BH",
  qvalueCutoff = 0.05,
  readable = T
)
dotplot(go)

gene_info <- DEGs %>%
  rownames_to_column(var = "SYMBOL") %>%
  inner_join(., gene.id[,1:2], by = "SYMBOL") %>%
  # 必須降序
  arrange(desc(logFC))

# 構造輸入數據格式
geneList <- gene_info$logFC
names(geneList) <- as.character(gene_info$ENTREZID)

go2 <- gseGO(
  geneList     = geneList,
  OrgDb        = org.Hs.eg.db,
  ont          = "ALL",
  minGSSize    = 10,
  maxGSSize    = 500,
  pvalueCutoff = 0.1,
  verbose      = FALSE
)

兩種富集方法都沒有富集到 go 通路，對于相關基因也是沒有富集到通路的。選的這個基因不行

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

TCGA 數據分析實戰 —— GSVA、ssGSEA 和單基因富集分析

TCGA 數據分析實戰 —— GSVA、ssGSEA 和單基因富集分析

前言

GSVA

1. GSVA 分析

2. 差異分析

ssGSEA

單基因富集分析

1. 定性分組

2. 定量相關

3. 富集分析

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

TCGA 數據分析實戰 —— GSVA、ssGSEA 和單基因富集分析

前言

GSVA

1. GSVA 分析

2. 差異分析

ssGSEA

單基因富集分析

1. 定性分組

2. 定量相關

3. 富集分析

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频