群體結構——PCA分析

概念

PCA(principal components analysis)即主成分分析。主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。

在統計學中,主成分分析PCA是一種簡化數據集的技術。它是一個線性變換的過程。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用于減少數據集的維數,同時保持數據集的對方差貢獻最大的特征。

PCA圖形的解讀

PCA分析雖然樸實無華,其實就是散點圖,但它應用十分廣泛,能夠幫我們解決很多生物學問題。PCA分析應用情境是:在某些情況下,生物數據實在過于復雜。

例如:對一個群體進行重測序,得到的SNP位點數可能是百萬級別的。如果我們直接使用百萬級別的SNP信息作為指標對個體進行區分,就會顯得信息過于龐大而無法把握重點。PCA分析過程就是從這百萬級別的信息中提取關鍵的信息,以便我們使用更少的標記就可以對樣本進行有效區分。這些被提取出的信息,按照其效應從大到小排列,我們稱之為主成分1(Principal component1)、主成分2、主成分3… …

運用1:群體結構分析

在實際文章中,我們不僅僅使用PC1和PC2來對樣本群體進行區分。從數學上理解,PCA分析的過程就是從大量數據指標中提取關鍵信息的過程。但PC1或PC2對總體信息的解釋程度總是有限的。我們將之稱為PCn對總體方差解釋的百分比。一般重測序的PCA分析結果中,PC1對總體信息的解釋比例在3~10%之間。所以,我們也需要關注一下其他主成分的分類效果。

例如在家蠶重測序文章中,分別使用主成分1和2繪圖(左圖)以及主成分3與主成分4繪圖(右圖)。兩個聚類結果呈現了不同的意義。在PC1和PC2的聚類圖中,將野生蠶和家蠶區分開了兩個群體。而在PC3和PC4的聚類中,則分離出了兩個來自江南地區高產絲量的品種。

家蠶PCA分析結果

所以,從生物學層面理解,PCA分析的過程就是信息濃縮的過程,會從原始的各個SNP位點信息中提取相似的信息,濃縮為新的變量PC1、PC2、PC3…. 輸出。所以不同的主成分可能會對應不同的生物學意義,產生不同的聚類分類效果。

運用2:檢測離群樣本

例如,在上圖(右)中,兩個高產的品種就屬于離群樣本。如果你材料已知都是來源同一品種的個體,這種離群樣本可能就意味著在采樣或測序過程中,出現了樣本混淆。如果這些材料后續用于GWAS分析,個別樣本出現離群則考慮要把這些離群樣本剔除。當然,如果大量樣本離群或出現群體分層(例如,上圖的左圖,明顯分層為兩個亞群體),則需要將PCA或structure分析的結果作為后續關聯分析的協變量,校正它們對關聯分析的影響。

運用3:推斷進化關系

例如下圖這篇葡萄群體研究的文章,研究的葡萄品種來源三個地域。綠色的西部葡萄和紅色的東部葡萄區分比較明顯,而藍色的中部葡萄夾雜在東、西兩個亞群間,和兩個亞群有大量重疊。作者從中推斷,東、西兩個地域的葡萄都有傳播到中部地區,并伴隨大量雜交,導致中部地區的品種系譜比較混雜,并沒有形成自己獨立的亞群。

葡萄亞群體的基因混雜現象

PCA分析實操

前期準備

給標記加上ID

SNP data通常都是以VCF格式文件呈現,拿到VCF文件的第一件事情就是添加各個SNP位點的ID。
先看一下最開始生成的VCF文件:

原始VCF文件

可以看到,ID列都是".",需要我們自己加上去。我用的是某不知名大神寫好的perl腳本,可以去我的github上下載,用法:

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

當然也可以用excel手工添加。添加后的文件如下圖所示(格式:CHROMID__POS):

添加ID后VCF文件

SNP位點過濾(Missing rate and maf filtering)

SNP位點過濾前需要問自己一個問題,我的數據需要過濾嗎?

一般要看后期是否做關聯分析(GWAS);如果只是單純研究群體結構建議不過濾,因為過濾掉低頻位點可能會改變某些樣本之間的關系;如果需要和表型聯系其來做關聯分析,那么建議過濾,因為在后期分析中低頻位點是不在考慮范圍內的,需要保持前后一致。

如果過濾,此處用到強大的plink軟件,用法:

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

參數解釋:--maf 0.05:過濾掉次等位基因頻率低于0.05的位點;--geno 0.2:過濾掉有20%的樣品缺失的SNP位點;--allow-extra-chr:我的參考數據是Contig級別的,個數比常見分析所用的染色體多太多,所以需要加上此參數。

格式轉換

將vcf文件轉換為bed格式文件。
這里注意一點?。。。。簯撌擒浖膯栴},需要把染色體/contig名稱變成連續的數字(1 to n),不然會報錯無法算出結果?。樱?/em>

plink --vcf YourDataName-id-maf0.05.vcf --make-bed --out snp --chr-set 29 no-xy

參數解釋:--chr-set 給出染色體/contig的數目;no-xy 沒有xy染色體。

用gcta做PCA分析

gcta輸出grm陣列(genetic relationship matrix)

gcta64 --make-grm --out snp.gcta --bfile snp --autosome-num 29

參數解釋:--autosome-num常染色體數目。

gcta計算PCA

gcta64 --grm snp.gcta --pca 20 --out snp.gcta

參數解讀:--pca 20 保留前20個PCA。

特征值結果儲存在snp.gcta.eigenval中,特征向量儲存在snp.gcta.eigenvec中。

結果處理

將特征值結果和特征向量結果用R處理為可讀性結果。寫好的R包我放在了Github中:PCA2normal_format.R,大家自行下載使用。

如果不想下載,直接復制如下代碼:

eigvec <- read.table("snp.gcta.eigenvec", header = F, stringsAsFactors = F)
write.table(eigvec[2:ncol(eigvec)], file = "gcta.eigenvector.xls", sep = "\t", row.names = F, col.names = T, quote = F)

eigval <- read.table("snp.gcta.eigenval", header = F)
pcs <- paste0("PC", 1:nrow(eigval))
eigval[nrow(eigval),1] <- 0
percentage <- eigval$V1/sum(eigval$V1)*100
eigval_df <- as.data.frame(cbind(pcs, eigval[,1], percentage), stringsAsFactors = F)
names(eigval_df) <- c("PCs", "variance", "proportion")
eigval_df$variance <- as.numeric(eigval_df$variance)
eigval_df$proportion <- as.numeric(eigval_df$proportion)
write.table(eigval_df, file = "gcta.eigenvalue.xls", sep = "\t", quote = F, row.names = F, col.names = T)

轉換前snp.gcta.eigenvec

snp.gcta.eigenvec

轉換后gcta.eigenvector.xls

gcta.eigenvector.xls

轉換前snp.gcta.eigenval(PCA方差)

snp.gcta.eigenval

轉換后gcta.eigenvalue.xls(PCA方差+方差解釋率)

gcta.eigenvalue.xls

用LDAK做PCA分析

相比gcta,能用LD對結果進行校正,具體來說,就是先用LD計算每個SNP位點的權重,根據權重再計算Kinship,這樣的結果更接近真實情況。

LDAK輸出grm陣列(genetic relationship matrix)

  • 在不考慮權重的情況下,方法如下:
ldak5.linux --calc-kins-direct snp.ldak --bfile snp --ignore-weights YES --kinship-gz YES --power -0.25
  • 用LD計算每個SNP位點的權重,根據權重再計算Kinship
#切割
ldak5.linux --cut-weights snp.sections --bfile snp
#查看有多少個section
cat snp.sections/section.number
#根據自己的section個數分別計算權重(我這里是31個)
for section in {1..31}; do ldak5.linux --calc-weights snp.sections --bfile snp --section $section; done
#weight文件整合,給SNP賦權重值
ldak5.linux --join-weights snp.sections --bfile snp
#輸出grm陣列
ldak5.linux --calc-kins-direct snp.ldak.weight --bfile snp --weights snp.sections/weights.all --kinship-gz YES --power -0.25

LDAK計算PCA(calculate PCA)

  • 不考慮權重
ldak5.linux --pca snp.ldak --grm snp.ldak --axes 222

參數解釋:--axes 樣本數量,這里需要準確填寫,不然無法用特征值計算方差解釋率。

  • 考慮權重
ldak5.linux --pca snp.ldak.weight --grm snp.ldak.weight --axes 222

特征值結果儲存在snp.ldak.weight.values中,特征向量儲存在snp.ldak.weight.vect中。

結果處理

和gcta方法一樣(只是輸入文件名稱不同),用同一個R包將特征值結果和特征向量結果用R處理為可讀性結果,這里不再贅述。

同樣,如果不想下載,直接復制如下代碼:

eigvec <- read.table("snp.ldak.weight.vect", header = F, stringsAsFactors = F)
colnames(eigvec) <- c("FID", "Sample", paste0("PC", 1:20))
write.table(eigvec[2:ncol(eigvec)], file = "ldak.eigenvector.xls", sep = "\t", row.names = F, col.names = T, quote = F)

eigval <- read.table("snp.ldak.weight.values", header = F)
pcs <- paste0("PC", 1:nrow(eigval))
eigval[nrow(eigval),1] <- 0
percentage <- eigval$V1/sum(eigval$V1)*100
eigval_df <- as.data.frame(cbind(pcs, eigval[,1], percentage), stringsAsFactors = F)
names(eigval_df) <- c("PCs", "variance", "proportion")
eigval_df$variance <- as.numeric(eigval_df$variance)
eigval_df$proportion <- as.numeric(eigval_df$proportion)
write.table(eigval_df, file = "ldak.eigenvalue.xls", sep = "\t", quote = F, row.names = F, col.names = T)

數據可視化

用R畫散點圖即可,散點圖的畫法由于篇幅原因,另外寫個帖詳細說明。這里直接分享一下我作圖的方法:

數據準備

除了上面獲得的兩個文件:ldak.eigenvector.xls和ldak.eigenvalue.xls外,還需要準備一個命名為pca.pop.xls的文件,該文件包含如下內容:

pca.pop.xls

注:第一列為排序;第二列為ID+vcf_id;第三列為vcf_id,需要和ldak.eigenvector.xls文件中SampleI ID一致;第四列為分組信息1;第五列為基于分組信息1給予的顏色信息;第六列為基于分組信息2給予的標記形狀信息;第七列為分組信息2(例子中為地理來源)。

賦值

按照如下代碼給各個參數賦值(賦予路徑信息):

eigvec <- "E:/Desktop/PCA/ldak.eigenvector.xls"
eigval <- "E:/Desktop/PCA/ldak.eigenvalue.xls"
popinfo <- "E:/Desktop/PCA/pca.pop.xls"
key <- "ldak_PCA"
od <- "E:/Desktop/PCA"

注:我在桌面建了一個名為PCA的文件夾,把ldak.eigenvector.xls、ldak.eigenvalue.xls和pca.pop.xls三個文件都放在里面;key是指定輸出文件的文件名前綴;od是指定輸出文件存放目錄。

調用pca.plot2d.r包作圖

poptable <- read.table(popinfo, header = T, comment.char = "")
pop <- unique(poptable[,4:7])
print(pop)
source("pca.plot2d.r")
pca_plot(eigenvector = eigvec, eigenvalue = eigval,
         group = popinfo, key = key, outdir = od,
         shape = T, shapes = pop$pch, border = T, border_size = 2.5,
         line0 = T, line0_size = 1)

執行后會返回,分別以PC1-PC2、PC1-PC3和PC2-PC3為坐標軸的PCA圖,包括pdf和png兩種格式的文件。

返回文件示意圖
PC1-PC2

注:我用的是我自己的數據,因為還未發表,所以我隱藏了圖例,大家執行之后圖片是會有圖例的。

參考:
群體結構圖形三劍客——PCA圖
Xia Q, Guo Y, Zhang Z, et al.Complete resequencing of 40 genomes reveals domestication events and genes insilkworm (Bombyx)[J]. Science, 2009, 326(5951): 433-436.
Myles S, Boyko A R, Owens C L, et al. Genetic structure and domesticationhistory of the grape[J]. Proceedings of the National Academy of Sciences, 2011,108(9): 3530-3535.
基迪奧全基因組關聯分析(GWAS)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,505評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,556評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,463評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,009評論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,778評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,218評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,281評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,436評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,969評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,795評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,993評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,537評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,229評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,659評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,917評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,687評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,990評論 2 374