群體結構——Structure堆疊圖詳細畫法

基本概念

基迪奧有篇文章寫得非常的簡單明了,我這里就不再贅述,大家移步去搞清楚基本知識。

群體結構圖形——structure堆疊圖

STRUCTURE軟件的使用準則

軟件假設輸入的標記數據中,每個標記都是獨立的,所以在分析之前,需要對標記按照一定規則進行篩選。常見篩選方法有如下三種Nat Rev Genet, 2015

  • 一定物理距離取一個代表用于分析
  • 全基因組上隨機抽取一部分標記進行分析
  • 按照LD篩選:LD強度大于一定閾值的標記只保留一個用于分析

STRUCTURE軟件實操:

前期準備

給標記加上ID

SNP data通常都是以VCF格式文件呈現,拿到VCF文件的第一件事情就是添加各個SNP位點的ID。

先看一下最開始生成的VCF文件:

原始VCF文件

可以看到,ID列都是".",需要我們自己加上去。我用的是某不知名大神寫好的perl腳本,可以去我的github上下載,用法:

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

當然也可以用excel手工添加。添加后的文件如下圖所示(格式:CHROMID__POS):

添加ID后VCF文件

SNP位點過濾(Missing rate and maf filtering)

SNP位點過濾前需要問自己一個問題,我的數據需要過濾嗎?

一般要看后期是否做關聯分析(GWAS);如果只是單純研究群體結構建議不過濾,因為過濾掉低頻位點可能會改變某些樣本之間的關系;如果需要和表型聯系其來做關聯分析,那么建議過濾,因為在后期分析中低頻位點是不在考慮范圍內的,需要保持前后一致。

如果過濾,此處用到強大的plink軟件,用法:

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

參數解釋:--maf 0.05:過濾掉次等位基因頻率低于0.05的位點;--geno 0.2:過濾掉有20%的樣品缺失的SNP位點;--allow-extra-chr:我的參考數據是Contig級別的,個數比常見分析所用的染色體多太多,所以需要加上此參數。

LD篩選(LD pruning and make bed file)

前文提到STRUCTURE軟件假設輸入的標記數據中,每個標記都是獨立的,所以我們需要對標記按照一定規則進行篩選,這里用其中的一種方法——LD篩選。

plink --vcf YourDataName-id-maf0.05.vcf --indep-pairwise 100 50 0.2 -out YourDataName-id-maf0.05-LD --allow-extra-chr --make-bed

100—以100個kb為單位;50—SNP數目,50個SNP的步長;0.2—LD強度。

轉換為STRUCTURE格式

plink --bfile YourDataName-id-maf0.05-LD --extract YourDataName-id-maf0.05-LD.prune.in --out YourDataName-id-maf0.05-LD-structure --recode structure --allow-extra-chr

填寫STRUCTURE配置文件:

配置文件有兩個,分別是mainparams和extraparams。我們需要填寫mainparams同時生成空extraparams文件。

注意:mainparams配置文件的個數為最大K值乘重復次數,如計算K從1到10,每個重復3次,則要有30個該文件,也要有對應的30個命令行。

K=1第一次重復的mainparams配置文件及參數介紹

如果計算K從1到10,每個重復3次,30個配置文件可以這樣命名:

mainparams配置文件命名方法

STRUCTURE運行

運行STRUCTURE很簡單:

#單個運行:
structure -m mainparams_1_1 -e extraparams
structure -m mainparams_1_2 -e extraparams
structure -m mainparams_1_3 -e extraparams
。
。

#同時運行:將mainparams配置文件名放到一個list中,用for循環調用運行STRUCTURE:
for i in $(less mainparams.list); do nohup structure -m ${i} -e extraparams & done

結果可視化

Structure的結果可視化用到一個R包——pophelper,需要在R環境中安裝后調用。注意:新版pophelper用下述命令會報錯,最好使用V2.2.9

#安裝pophelper 2.2.9軟件:
install.packages(c("Cairo","devtools","ggplot2","gridExtra","gtable","tidyr"),dependencies=T)
devtools::install_github('royfrancis/pophelper')

數據可視化包括兩個方面,1)計算K值并畫圖,2)繪制Structure堆疊圖。方法很簡單,把所有的結果都放在同一個文件夾里,調用pophelpe即可,寫好的R命令如下所示,按需求執行:

另外,需要準備分組文件(pop_list.txt),我分了如下圖的幾列,大家可以自己DIY。注意:該文件中的樣品排序需要與VCF中的樣品排序相對應

pop_list.txt
# read structure results
#更改工作路徑(該路徑下存有Structure所有的運行結果)
setwd("F:structure_results")
#調用pophelper
library(pophelper)
file_list <- list.files(path = "./out/", full.names = T) # list file directory
qlist <- readQ(file_list) # read result files
# evanno method to calculate deltaK
tbq <- tabulateQ(qlist)
smq <- summariseQ(tbq)

###繪制最佳K值線
evannoMethodStructure(smq, exportplot = T, writetable = T,
                      imgtype = "png", height = 16, width = 18,outputfilename = "evanno")
evannoMethodStructure(smq, exportplot = T, writetable = T,
                      imgtype = "pdf", height = 16, width = 18,outputfilename = "evanno")

# clumpp repeat results
clumppExport(qlist = qlist, parammode = 3, prefix = "pop", useexe = T) # run clumpp
collectClumppOutput(prefix = "pop", filetype = "both", runsdir = getwd()) # collect clumpp results
# read clumpp merged results
fclum <- list.files(path = "pop-both", full.names = T, pattern = "merge")
qclum <- readQ(fclum)
sample_order <- read.table("./pop_list.txt", header = T, stringsAsFactors = F)

ind_name <- sample_order[,1]
for(i in 1:length(qclum)){
  row.names(qclum[[i]]) <- ind_name
}
mink <- 2
maxk <- 10
k_order <- vector()
if(maxk < 10){
  k_order <- 1:length(qclum)
} else if (maxk < 20) {
  end1 <- maxk - 10 + 1
  start2 <- end1 + 1
  k_order <- c(start2:length(qclum), 1:end1)
}
klab <- vector()
if(mink == 1){
  klab <- 2:maxk
} else {
  klab <- mink:maxk
}

# 繪制全局structure圖
# plot global barplot without group information
prefix <- "demo"
height <- 2
width <- 16
plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=0.1,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

# 繪制全局并帶有組信息的structure圖
# plot global barplot with group information
prefix <- "demo_label"
plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T, grplabsize=2, grplabheight = 4)

plotQ(qclum[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=0.1,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T,grplabsize=2, grplabheight = 4)

# 繪制各個k值的structure圖
# plot single K barplot
plotQ(qclum, imgoutput = "sep",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)
plotQ(qclum, imgoutput = "sep",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA,
      grplab=sample_order[,2:3,drop=FALSE],ordergrp=T,grplabsize=2, grplabheight = 4)

## for admixture plot
library(pophelper)
setwd("F:/works/developing/course/gwas/data/lecture07/admixture_results")
file_list_admix <- list.files("admixture_output/", pattern = ".Q", full.names = T)
info <- read.table("sample_order.txt", header = T, stringsAsFactors = F)
qlist_admix <- readQ(file_list_admix)
for(i in 1:length(qlist_admix)){
  row.names(qlist_admix[[i]]) <- info$sample
}
k_order <- vector()
mink <- 1
maxk <- 10
if(maxk < 10){
  k_order <- 1:length(qlist_admix)
} else if (maxk < 20) {
  end1 <- maxk - 10 + 1
  start2 <- end1 + 1
  k_order <- c(start2:length(qlist_admix), 1:end1)
}
klab <- vector()
if(mink == 1){
  klab <- 2:maxk
} else {
  klab <- mink:maxk
}

prefix <- "admix"
height <- 1
width <- 16
plotQ(qlist_admix[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="pdf", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

plotQ(qlist_admix[k_order], imgoutput="join",showindlab=T, showlegend=F, sortind = "all",
      indlabsize=0.5,indlabheight=0,indlabspacer=0.05,barbordersize=NA,
      outputfilename=prefix,imgtype="png", sharedindlab = F,
      useindlab = T, showyaxis = T, basesize = 10, sppos = "right", showticks = T,
      splab = paste0("K = ", klab), splabsize = 6, splabface = "bold",
      width = width, height = height, panelspacer = 0.02, dpi = 600, barbordercolour = NA)

參考:
群體結構圖形——structure堆疊圖
Sehraiber J G. Methods and models for unravelling human evolutionary history. Nature Reviews. Genetics, 2015

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380