ChIPseeker包南方醫科大學Y叔大牛寫的許多有名的生信R包之一，其最初設計用于chip-seq的macs peak calling結果分析以及可視化，后來逐漸也適用于相關的peak分析。
參考鏈接：https://www.bioconductor.org/packages/release/bioc/vignettes/ChIPseeker/inst/doc/ChIPseeker.html；
以及Y叔自己的微信公眾號教程：https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5NjUyNzkxMg==&action=getalbum&album_id=1300625300497268737&scene=173&from_msgid=2247488238&from_itemidx=1&count=3#wechat_redirect

1、關于ChIP-seq

詳見之前的筆記

之前在學習macs文章時，有了解過；這里再簡單學習一下。
如下圖，DNA上的蛋白結合位點往往是基因表達調控的關鍵位置，ChIP技術就是針對性的挑選出這些位置。
DNA和蛋白質交聯(cross-linking)，超聲(sonication)將染色體隨機切割，利用抗原抗體的特異性識別(IP)，把目標蛋白相結合的DNA片段沉淀下來，反交聯釋放DNA片段，最后是測序(sequencing)。
MACS軟件通過一定原理算法，對測序比對結果識別出有意義的peak。ChIPseeker包就是銜接這一步之后開始做的。

ChIP

2、準備工作 preparation

因為macs結果為bed輸出格式，所以需要了解bed，即bedtools軟件
了解GRanges、TxDb這兩種常見的生信基礎數據對象

library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene

安裝R包，找到示例數據

BiocManager::install("ChIPseeker")
library(ChIPseeker)
files <- getSampleFiles()
print(files)
#bed轉為Granges對象
peak <- readPeakFile(files[[4]])
peak

如下圖，即為ChIPseeker包分析所需的peak GRange對象。
分割線左邊三列分別為所在染色體信息，起止位點，正負鏈情況；
右邊兩列分別為peak name與score（我認為可以理解與reads數正相關）

peak

3、ChIPseeker基礎peak可視化

3.1、概況`covplot()`

觀察所有peak在染色體的分布、表達情況

#依據第五列score，表明峰的高低情況
covplot(peak, weightCol="V5")

covplot all peak&all chromesome

#篩選指定染色體的指定區域的分布情況
covplot(peak, weightCol="V5", chrs=c("chr17", "chr18"), xlim=c(4.5e7, 5e7))

covplot some area

3.2、針對某一feature的分布情況

heatmap
常見的分析是觀察不同peak分布在TSS的promoter區域情況

#自己定義promoter區域，上下游3000bp
promoter <- getPromoters(TxDb=txdb, upstream=3000, downstream=3000)
#不理解這個函數也沒關系，是為下一步做熱圖提供matrix
tagMatrix <- getTagMatrix(peak, windows=promoter)
tagHeatmap(tagMatrix, xlim=c(-3000, 3000), color="red")

如下圖結果，每一行代表一個promoter區域，紅線的即為peak分布

tagheatmap

#一鍵繪圖，效果同上
peakHeatmap(peak, TxDb=txdb, upstream=3000, downstream=3000, color="red")

峰圖
上面的熱圖是描繪了所有的promoter情況，可以繪制一個峰圖描述所有分布的平均情況。

plotAvgProf(tagMatrix, xlim=c(-3000, 3000),
            xlab="Genomic Region (5'->3')", ylab = "Read Count Frequency")

plotAvgProf

#加一個置信區間
plotAvgProf(tagMatrix, xlim=c(-3000, 3000), conf = 0.95, resample = 1000)

plotAvgProf with conf

we developed getBioRegion function to support centering all peaks to the start region of Exon/Intron. Users can also create heatmap or average profile of ChIP peaks binding to these regions.

4、ChIPseeker peak annotation

4.1 what's peak annotation

簡單理解peak 注釋就是peak落在染色體的哪一個位置上。常見的基因結構組成如下圖所示。

basic structure of gene
此外ChIPseeker的peak注釋時還提供另外一種注釋方法，具體在注釋結果時再具體了解（nearest gene annotation）。

4.2 `annotatePeak()`

（1）just do it

ChIPseeker包主要用annotatePeak()注釋peak。需要提供兩個文件：一是peak文件，可以是bed或者Granges；另一個是對應物種的TxDb對象（提供原始注釋信息）
此外promoter的區間可以自己定義，默認設置為TSS上下游3k區域

peak
#共計1331個peak
txdb
peakAnno <- annotatePeak(files[[4]], tssRegion=c(-3000, 3000), TxDb=txdb)
peakAnno

如下圖，如果在R里直接觀察結果，它會告訴我們ChIPseq的位點落在基因組上什么樣的區域，分布情況如何。（即第一種注釋方法genomic annotation）

genomic annotation

在注釋時，有的peak可能同時落在兩個或者更多的gene feature里（例如是一個基因的外顯子而同時又是另一個基因的內含子），但只能注釋其中一個。默認按照Promoter、5’ UTR、3’ UTR、Exon、Intron、Downstream、Intergenic順序先后注釋。

一般會將上述的結果輸出為GRanges格式、或者data.frame格式；便于查看，同時也能了解到annotatePeak第二種nearest gene annotation結果。

class(peakAnno)
peakAnno.df <- as.data.frame(peakAnno)
peakAnno.gr <- as.GRanges(peakAnno)
head(peakAnno.gr, 3)

如下圖，右上角為genomic annotation結果、下面為nearest gene annotation結果。

nearest gene annotation最近基因注釋：是peak相對于轉錄起始位點的距離，不管這個peak是落在內含子或者別的什么位置上，即使它落在基因間區上，我都能夠找到一個離它最近的基因（即使它可能非常遠）。
如果peak和TSS有overlap，genomic annotation就是promoter，距離就是0，而最近基因也是同一個，所以在這種情況下，兩種注釋都指向同一個基因。
最近基因的注釋信息雖然是以基因為單位給出，但我們針對的是轉錄起始位點來計算距離，針對于不同的轉錄本，一個基因可能有多個轉錄起始位點，所以注釋是在轉錄本的水平上進行的，我們可以看到輸出有一列是transcriptId.

head(peakAnno.gr, 3)

另外一種思路：注意上述nearest gene annotation默認找的是最近的TSS，即first anno與second anno對應的可以不是同一個基因。如果我想說只要和基因有overlap就是最近基因，那么這兩種注釋的基因應該是一致的，只需把overlap="TSS"(default)設置為overlap="all"

5、ChIPseeker基于注釋的peak可視化

（1）genomic annotation可視化

餅圖或柱狀圖可視化組成比例

plotAnnoPie(peakAnno)
plotAnnoBar(peakAnno)

pie chart

考慮到注釋到多種feature的可能

vennpie(peakAnno)

venn + pie

upsetplot(peakAnno, vennpie=TRUE)

如下圖可以清楚地看到絕大多數的peak同時落到了多種feature里

upsetplot

（2）nearest gene annotation結果可視化

可視化the distance from the peak (binding site) to the TSS of the nearest gene
plotDistToTSS can calculate the percentage of binding sites upstream and downstream from the TSS of the nearest genes, and visualize the distribution.

plotDistToTSS(peakAnno,
              title="Distribution of transcription factor-binding loci\nrelative to TSS")

plotDistToTSS

ChIPseeker包暫時先學習到這里，還有很多深入的功能，比如富集分析等，之后有機會再學習。
感覺到國人寫的R包，然后看中文的原版說明書還是比較輕松的~~

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

[R]bioconductor之ChIPseeker學習

[R]bioconductor之ChIPseeker學習

1、關于ChIP-seq

2、準備工作 preparation

3、ChIPseeker基礎peak可視化

3.1、概況`covplot()`

3.2、針對某一feature的分布情況

4、ChIPseeker peak annotation

4.1 what's peak annotation

4.2 `annotatePeak()`

（1）just do it

5、ChIPseeker基于注釋的peak可視化

（1）genomic annotation可視化

（2）nearest gene annotation結果可視化

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

[R]bioconductor之ChIPseeker學習

1、關于ChIP-seq

2、準備工作 preparation

3、ChIPseeker基礎peak可視化

3.1、概況covplot()

3.2、針對某一feature的分布情況

4、ChIPseeker peak annotation

4.1 what's peak annotation

4.2 annotatePeak()

（1）just do it

5、ChIPseeker基于注釋的peak可視化

（1）genomic annotation可視化

（2）nearest gene annotation結果可視化

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

2、準備工作 preparation

3、ChIPseeker基礎peak可視化

3.1、概況`covplot()`

3.2、針對某一feature的分布情況

4、ChIPseeker peak annotation

4.2 `annotatePeak()`

5、ChIPseeker基于注釋的peak可視化