概念

PCA（principal components analysis）即主成分分析。主成分分析也稱主分量分析，旨在利用降維的思想，把多指標轉化為少數幾個綜合指標。

在統計學中，主成分分析PCA是一種簡化數據集的技術。它是一個線性變換的過程。這個變換把數據變換到一個新的坐標系統中，使得任何數據投影的第一大方差在第一個坐標（第一主成分）上，第二大方差在第二個坐標（第二主成分）上，依次類推。主成分分析經常用于減少數據集的維數，同時保持數據集的對方差貢獻最大的特征。

PCA圖形的解讀

PCA分析雖然樸實無華，其實就是散點圖，但它應用十分廣泛，能夠幫我們解決很多生物學問題。PCA分析應用情境是：在某些情況下，生物數據實在過于復雜。

例如：對一個群體進行重測序，得到的SNP位點數可能是百萬級別的。如果我們直接使用百萬級別的SNP信息作為指標對個體進行區分，就會顯得信息過于龐大而無法把握重點。PCA分析過程就是從這百萬級別的信息中提取關鍵的信息，以便我們使用更少的標記就可以對樣本進行有效區分。這些被提取出的信息，按照其效應從大到小排列，我們稱之為主成分1（Principal component1）、主成分2、主成分3… …

運用1：群體結構分析

在實際文章中，我們不僅僅使用PC1和PC2來對樣本群體進行區分。從數學上理解，PCA分析的過程就是從大量數據指標中提取關鍵信息的過程。但PC1或PC2對總體信息的解釋程度總是有限的。我們將之稱為PCn對總體方差解釋的百分比。一般重測序的PCA分析結果中，PC1對總體信息的解釋比例在3~10%之間。所以，我們也需要關注一下其他主成分的分類效果。

例如在家蠶重測序文章中，分別使用主成分1和2繪圖（左圖）以及主成分3與主成分4繪圖（右圖）。兩個聚類結果呈現了不同的意義。在PC1和PC2的聚類圖中，將野生蠶和家蠶區分開了兩個群體。而在PC3和PC4的聚類中，則分離出了兩個來自江南地區高產絲量的品種。

家蠶PCA分析結果

所以，從生物學層面理解，PCA分析的過程就是信息濃縮的過程，會從原始的各個SNP位點信息中提取相似的信息，濃縮為新的變量PC1、PC2、PC3…. 輸出。所以不同的主成分可能會對應不同的生物學意義，產生不同的聚類分類效果。

運用2：檢測離群樣本

例如，在上圖（右）中，兩個高產的品種就屬于離群樣本。如果你材料已知都是來源同一品種的個體，這種離群樣本可能就意味著在采樣或測序過程中，出現了樣本混淆。如果這些材料后續用于GWAS分析，個別樣本出現離群則考慮要把這些離群樣本剔除。當然，如果大量樣本離群或出現群體分層（例如，上圖的左圖，明顯分層為兩個亞群體），則需要將PCA或structure分析的結果作為后續關聯分析的協變量，校正它們對關聯分析的影響。

運用3：推斷進化關系

例如下圖這篇葡萄群體研究的文章，研究的葡萄品種來源三個地域。綠色的西部葡萄和紅色的東部葡萄區分比較明顯，而藍色的中部葡萄夾雜在東、西兩個亞群間，和兩個亞群有大量重疊。作者從中推斷，東、西兩個地域的葡萄都有傳播到中部地區，并伴隨大量雜交，導致中部地區的品種系譜比較混雜，并沒有形成自己獨立的亞群。

葡萄亞群體的基因混雜現象

PCA分析實操

前期準備

給標記加上ID

SNP data通常都是以VCF格式文件呈現，拿到VCF文件的第一件事情就是添加各個SNP位點的ID。
先看一下最開始生成的VCF文件：

原始VCF文件

可以看到，ID列都是"."，需要我們自己加上去。我用的是某不知名大神寫好的perl腳本，可以去我的github上下載，用法：

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

當然也可以用excel手工添加。添加后的文件如下圖所示（格式：CHROMID__POS）：

添加ID后VCF文件

SNP位點過濾（Missing rate and maf filtering）

SNP位點過濾前需要問自己一個問題，我的數據需要過濾嗎？

一般要看后期是否做關聯分析（GWAS）；如果只是單純研究群體結構建議不過濾，因為過濾掉低頻位點可能會改變某些樣本之間的關系；如果需要和表型聯系其來做關聯分析，那么建議過濾，因為在后期分析中低頻位點是不在考慮范圍內的，需要保持前后一致。

如果過濾，此處用到強大的plink軟件，用法：

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

參數解釋：--maf 0.05：過濾掉次等位基因頻率低于0.05的位點；--geno 0.2：過濾掉有20%的樣品缺失的SNP位點；--allow-extra-chr：我的參考數據是Contig級別的，個數比常見分析所用的染色體多太多，所以需要加上此參數。

格式轉換

將vcf文件轉換為bed格式文件。
這里注意一點?。。。。簯撌擒浖膯栴}，需要把染色體/contig名稱變成連續的數字（1 to n），不然會報錯無法算出結果?。樱?/em>

plink --vcf YourDataName-id-maf0.05.vcf --make-bed --out snp --chr-set 29 no-xy

參數解釋：--chr-set 給出染色體/contig的數目；no-xy 沒有xy染色體。

用gcta做PCA分析

gcta輸出grm陣列（genetic relationship matrix）

gcta64 --make-grm --out snp.gcta --bfile snp --autosome-num 29

參數解釋：--autosome-num常染色體數目。

gcta計算PCA

gcta64 --grm snp.gcta --pca 20 --out snp.gcta

參數解讀：--pca 20 保留前20個PCA。

特征值結果儲存在snp.gcta.eigenval中，特征向量儲存在snp.gcta.eigenvec中。

結果處理

將特征值結果和特征向量結果用R處理為可讀性結果。寫好的R包我放在了Github中：PCA2normal_format.R，大家自行下載使用。

如果不想下載，直接復制如下代碼：

eigvec <- read.table("snp.gcta.eigenvec", header = F, stringsAsFactors = F) write.table(eigvec[2:ncol(eigvec)], file = "gcta.eigenvector.xls", sep = "\t", row.names = F, col.names = T, quote = F) eigval <- read.table("snp.gcta.eigenval", header = F) pcs <- paste0("PC", 1:nrow(eigval)) eigval[nrow(eigval),1] <- 0 percentage <- eigval$V1/sum(eigval$V1)*100 eigval_df <- as.data.frame(cbind(pcs, eigval[,1], percentage), stringsAsFactors = F) names(eigval_df) <- c("PCs", "variance", "proportion") eigval_df$variance <- as.numeric(eigval_df$variance) eigval_df$proportion <- as.numeric(eigval_df$proportion) write.table(eigval_df, file = "gcta.eigenvalue.xls", sep = "\t", quote = F, row.names = F, col.names = T)

轉換前snp.gcta.eigenvec

snp.gcta.eigenvec

轉換后gcta.eigenvector.xls

gcta.eigenvector.xls

轉換前snp.gcta.eigenval（PCA方差）

snp.gcta.eigenval

轉換后gcta.eigenvalue.xls（PCA方差+方差解釋率）

gcta.eigenvalue.xls

用LDAK做PCA分析

相比gcta，能用LD對結果進行校正，具體來說，就是先用LD計算每個SNP位點的權重，根據權重再計算Kinship，這樣的結果更接近真實情況。

LDAK輸出grm陣列（genetic relationship matrix）

在不考慮權重的情況下，方法如下：

ldak5.linux --calc-kins-direct snp.ldak --bfile snp --ignore-weights YES --kinship-gz YES --power -0.25

用LD計算每個SNP位點的權重，根據權重再計算Kinship

#切割 ldak5.linux --cut-weights snp.sections --bfile snp #查看有多少個section cat snp.sections/section.number #根據自己的section個數分別計算權重（我這里是31個） for section in {1..31}; do ldak5.linux --calc-weights snp.sections --bfile snp --section $section; done #weight文件整合，給SNP賦權重值 ldak5.linux --join-weights snp.sections --bfile snp #輸出grm陣列 ldak5.linux --calc-kins-direct snp.ldak.weight --bfile snp --weights snp.sections/weights.all --kinship-gz YES --power -0.25

LDAK計算PCA（calculate PCA）

不考慮權重

ldak5.linux --pca snp.ldak --grm snp.ldak --axes 222

參數解釋：--axes 樣本數量，這里需要準確填寫，不然無法用特征值計算方差解釋率。

考慮權重

ldak5.linux --pca snp.ldak.weight --grm snp.ldak.weight --axes 222

特征值結果儲存在snp.ldak.weight.values中，特征向量儲存在snp.ldak.weight.vect中。

結果處理

和gcta方法一樣（只是輸入文件名稱不同），用同一個R包將特征值結果和特征向量結果用R處理為可讀性結果，這里不再贅述。

同樣，如果不想下載，直接復制如下代碼：

eigvec <- read.table("snp.ldak.weight.vect", header = F, stringsAsFactors = F) colnames(eigvec) <- c("FID", "Sample", paste0("PC", 1:20)) write.table(eigvec[2:ncol(eigvec)], file = "ldak.eigenvector.xls", sep = "\t", row.names = F, col.names = T, quote = F) eigval <- read.table("snp.ldak.weight.values", header = F) pcs <- paste0("PC", 1:nrow(eigval)) eigval[nrow(eigval),1] <- 0 percentage <- eigval$V1/sum(eigval$V1)*100 eigval_df <- as.data.frame(cbind(pcs, eigval[,1], percentage), stringsAsFactors = F) names(eigval_df) <- c("PCs", "variance", "proportion") eigval_df$variance <- as.numeric(eigval_df$variance) eigval_df$proportion <- as.numeric(eigval_df$proportion) write.table(eigval_df, file = "ldak.eigenvalue.xls", sep = "\t", quote = F, row.names = F, col.names = T)

數據可視化

用R畫散點圖即可，散點圖的畫法由于篇幅原因，另外寫個帖詳細說明。這里直接分享一下我作圖的方法：

數據準備

除了上面獲得的兩個文件：ldak.eigenvector.xls和ldak.eigenvalue.xls外，還需要準備一個命名為pca.pop.xls的文件，該文件包含如下內容：

pca.pop.xls

注：第一列為排序；第二列為ID+vcf_id；第三列為vcf_id，需要和ldak.eigenvector.xls文件中SampleI ID一致；第四列為分組信息1；第五列為基于分組信息1給予的顏色信息；第六列為基于分組信息2給予的標記形狀信息；第七列為分組信息2（例子中為地理來源）。

賦值

按照如下代碼給各個參數賦值（賦予路徑信息）：

eigvec <- "E:/Desktop/PCA/ldak.eigenvector.xls" eigval <- "E:/Desktop/PCA/ldak.eigenvalue.xls" popinfo <- "E:/Desktop/PCA/pca.pop.xls" key <- "ldak_PCA" od <- "E:/Desktop/PCA"

注：我在桌面建了一個名為PCA的文件夾，把ldak.eigenvector.xls、ldak.eigenvalue.xls和pca.pop.xls三個文件都放在里面；key是指定輸出文件的文件名前綴；od是指定輸出文件存放目錄。

調用pca.plot2d.r包作圖

poptable <- read.table(popinfo, header = T, comment.char = "") pop <- unique(poptable[,4:7]) print(pop) source("pca.plot2d.r") pca_plot(eigenvector = eigvec, eigenvalue = eigval, group = popinfo, key = key, outdir = od, shape = T, shapes = pop$pch, border = T, border_size = 2.5, line0 = T, line0_size = 1)

執行后會返回，分別以PC1-PC2、PC1-PC3和PC2-PC3為坐標軸的PCA圖，包括pdf和png兩種格式的文件。

返回文件示意圖

PC1-PC2

注：我用的是我自己的數據，因為還未發表，所以我隱藏了圖例，大家執行之后圖片是會有圖例的。

參考：
群體結構圖形三劍客——PCA圖
 Xia Q, Guo Y, Zhang Z, et al.Complete resequencing of 40 genomes reveals domestication events and genes insilkworm (Bombyx)[J]. Science, 2009, 326(5951): 433-436.
Myles S, Boyko A R, Owens C L, et al. Genetic structure and domesticationhistory of the grape[J]. Proceedings of the National Academy of Sciences, 2011,108(9): 3530-3535.
基迪奧全基因組關聯分析(GWAS)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

群體結構——PCA分析

群體結構——PCA分析

概念

PCA圖形的解讀

運用1：群體結構分析

運用2：檢測離群樣本

運用3：推斷進化關系

PCA分析實操

前期準備

給標記加上ID

SNP位點過濾（Missing rate and maf filtering）

格式轉換

用gcta做PCA分析

gcta輸出grm陣列（genetic relationship matrix）

gcta計算PCA

結果處理

用LDAK做PCA分析

LDAK輸出grm陣列（genetic relationship matrix）

LDAK計算PCA（calculate PCA）

結果處理

數據可視化

數據準備

賦值

調用pca.plot2d.r包作圖

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

群體結構——PCA分析

概念

PCA圖形的解讀

運用1：群體結構分析

運用2：檢測離群樣本

運用3：推斷進化關系

PCA分析實操

前期準備

給標記加上ID

SNP位點過濾（Missing rate and maf filtering）

格式轉換

用gcta做PCA分析

gcta輸出grm陣列（genetic relationship matrix）

gcta計算PCA

結果處理

用LDAK做PCA分析

LDAK輸出grm陣列（genetic relationship matrix）

LDAK計算PCA（calculate PCA）

結果處理

數據可視化

數據準備

賦值

調用pca.plot2d.r包作圖

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频