群體進化-gwas分析
在這里插入圖片描述
群體進化基礎分析
PCA
- 分析原理
- PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,第一個新坐標軸選擇是原始數據中方差最大的方向,第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的。依次類推,可以得到n個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面k個坐標軸中,后面的坐標軸所含的方差幾乎為0。于是,我們可以忽略余下的坐標軸,只保留前面k個含有絕大部分方差的坐標軸。事實上,這相當于只保留包含絕大部分方差的維度特征,而忽略包含方差幾乎為0的特征維度,實現對數據特征的降維處理。
- 簡潔點來講現在有這樣的數據,100個樣品,2M標記,即是2000000X100的矩陣,那么就通過數學降維的方法簡化到100X3甚至100X2乘(即PC1,PC2)
- 分析軟件
- GCTA
- tassel
- EIGENSTRAT
- 結果展示
- PCA結果矩陣(特征向量)
GWAS_1 0.0295707 0.0174155 -0.0245656
GWAS_10 0.0212291 -0.0552983 -0.0280335
GWAS_100 -0.0645872 0.00456635 0.00588907
GWAS_101 -0.0779853 -0.0317529 0.0138288
GWAS_102 -0.0790227 -0.0295285 0.0147819
GWAS_105 -0.0845384 0.000685319 0.0108059
GWAS_108 -0.0779536 -0.00380985 0.0101755
GWAS_109 -0.0789908 -0.00534946 0.012742
GWAS_11 0.0152839 0.0185823 -0.0305629
GWAS_110 -0.080786 -0.00255263 0.0131448
* 第一列樣品名稱,第二列PC1的值,第三列PC2的值,第四列PC3的值(也就是平時看到的結果圖的橫縱坐標來源)
* PCA解釋數據結果(特征值)
54.402
32.2402
25.6809
18.0063
13.7968
9.6096
9.46086
9.00158
8.16587
7.60115
* 這個結果每一個值對應的維度的解釋情況,行數與樣品數量一致,第一行代表第一維,依次類推;每一行除以所有行數的和即是其第幾維解釋的比例
- PCA結果圖
-
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
- 結果要點
- 結果圖中相對分群結果合理,大部分跟生產經驗相一致
- 解釋度可接受,這個方面想了解的話,可以看看文獻的,不是硬標準
TREE
-
分析原理
- 系統發育分析中,最重要和最常見的內容為構建系統發育樹。系統發育樹也稱為系統發生樹(phylogenetic tree)、聚類樹或者進化樹(evolutionary tree)。以樹狀結構表示各個節點的進化關系,枝點可以是物種、同一物種的樣本、基因等單元。
- 根據SNP或者Indel 構建其系統進化樹,可以展示群體中不同個體的相互關系,基因變異相似的往往會在同一個樹的cluster中,一顆好的樹可以給你一個群體大概的分類(你這個群體中有多少個cluster,一般同一個亞種或者有親緣關系的個體會形成一個cluster),這是群體遺傳中重要的一部分。其構建的核心原理就是把每個位點SNPs的信息提取,然后計算每個變異位點的差異得到算法中的“距離”。
-
分析軟件
- treebest
- mega
- taseel
- snphylo
- phylip
-
算法
- nj 臨近算法
- ml 最大似然值
-
結果展示
在這里插入圖片描述
在這里插入圖片描述
- 結果要點
- 分群清晰,大部分樣品與已知生產經驗一致
STructure
-
分析原理
- 先預設群體由若干亞群(k=x)構成,通過模擬算法找出在k=x的情況下,最合理的樣本分類方法。最后再根據每次模擬的最大似然值,找出最適用這群體的K值。
-
分析軟件
- STRUCTURE
- ADMIXTURE
- FRAPPE
- fast-STRUCTURE
-
算法
- 亞群內符合哈溫平衡
- 那么,軟件在如何確定樣本的最優分類方法呢?其實基于一個假設:在各個亞群內部個體應該符合哈代-溫伯格平衡(哈溫平衡的概念可以在百度查詢),那么這個亞群內的基因頻率分布應該可通過哈溫平衡檢驗。例如,現在有40個個體的1個SNP位點的基因型,我預設亞群數k=2。我先隨機將40個個體分成兩份,然后檢驗是否符合哈溫平衡。如果不符合,我繼續調整分類策略,直到找到一種最優的分類方法:40個個體被分為了兩份,每個亞群都由若干個體構成,每個亞群內部都最大程度地符合哈溫平衡。
- 每個位點是獨立的
- 同一個體基因組上的不同SNP可能來源不同亞群體,軟件是對每個位點單獨進行分群的,然后統計比例,所以要求進行分析的每個位點是獨立,不然會造成比例的不準確
- 每個樣本的血統構成
- 以k=2為例,解釋一下structure是如何找到樣本的最優分類。其實簡單說來,就是利用了計算機超強的運行能力,一開始計算機只是隨機將樣本分為兩份,然后在每個亞群內進行哈溫平衡檢驗。如果不符合哈溫平衡(拍腦袋的分類,一開始當然是慘不忍睹),計算機繼續調整分類,然后繼續檢驗。
- 如此這般,在計算n次后,計算機再從這一堆結果中找到最佳的分類。這個過程稱為“隱馬科夫-蒙特卡羅鏈”的過程,計算次數n就是這個鏈的長度,這是structure一個重要的參數“Number of MCMC Reps”,需要預先設定。
- 但因為這個計算的過程是從隨機模擬開始的。如果一開始拍腦袋拍的不好(隨機分類與真實分類差距太大),計算機一黑到底,最后把n次用完了,都沒有找到一個合理的分類。所以,分析軟件往往有個預實驗的過程。
- 就是在正式進行大規模運算前,計算機先嘗試各種各樣的隨機分類,運行非常短的次數,然后評估哪種隨機分類是最合理的。之后,在根據最優的隨機分類,進行后續的大規模運算。這個過程就稱為burn-in period,預實驗的次數就稱為burin-in的次數。這也是structure分析另外一個重要的參數“length of burn-in period”。
- 選擇使用那種模型
- 主要涉及兩種模型 no admixture model和admixture model。前者假設亞群間不存在雜交,后者則假設亞群間存在雜交。在絕大部分情況下,當然是選擇admixture 模型更合理了。
- 亞群內符合哈溫平衡
-
結果展示
在這里插入圖片描述
- 結果要點
- 最終k值選取的結果跟實際生產相符性
- 一般會以該結果的0.8或者0.6以上血緣比例的作為標準(血緣復雜的根據情況有些可以追溯原因)
LD
- 分析原理
- 只要兩個基因不是完全獨立遺傳,就會表現出某種程度的連鎖,這種情況就叫連鎖不平衡。
- 由于HLA不同基因座某些基因經常連鎖在一起遺傳,而連鎖的基因并非完全的隨機的組成單體型,有些基因總是較多的在一起出現,致使某些單體型在群體中呈現較高的頻率,從而引起連鎖不平衡。
- 假如位于同一染色體的兩個等位基因(AB)同時存在的概率大于人群中因隨機分布而同時出現的概率,稱這兩點處于LD狀態。
- LD的基本單位是D,但是度量觀察到的單倍型頻率與平衡狀態下期望頻率的偏差。
- 雖然D能夠很好的表達LD的基本含義,但是由于其嚴格依賴于等位基因頻率(allele frequency),故不適合應用于表述實際的LD強度。
- 所以一般在LD的度量中最常見的是D'和r2。二者各有各的特點和用途,但都是基于D的。
- 當D'=0,r2=0時,處于完全連鎖平衡狀態
- 當D'=1,r2=1時,處于完全連鎖不平衡狀態。
- 其中,從0—1之間的度量越高,LD越高,如果兩個位點連鎖,連鎖程度也越高。
- 分析軟件
- plink
- haploview
- 算法
- 1、設有兩個位點(A、B),等位基因分別是A、a、B、b,在群體中對應頻率f(A)、f(a)、f(B)和f(b)
- 2、兩個位點共有四種單倍型AB、Ab、aB、ab,對應頻率f(AB)、f(Ab)、f(aB)和f(ab)
- 3、計算:Dab=f(AB)-f(A)*f(B)
- 當Dab=0時,處于連鎖平衡狀態;
- 當Dab≠0時,處于連鎖不平衡狀態。
- LD度量:
- 當Dab>0,|D'|=(Dab)2/min(f(AB), f(ab));
- 當Dab<0,|D'|=(Dab)2/min(f(Ab), f(aB));
- r2=(Dab)2/(f(A)f(a)f(B)*f(b));
-
結果展示
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
- 結果要點
- 一般如果是GWAS項目,沒有明顯的分群的話,會做這個作為一個平均連鎖距離的依據(文章中大多采用兩種策略:1.LD的R2降到最高點的一半時的距離作為平均連鎖距離;2.LD的R2降到0.2時的距離作為平均連鎖距離)
- 如果是群體進化項目,會有非常明確的群體劃分,各自群體分別進行LD分析,能夠從一定程度上討論進化快慢等信息
- 倒三角的具體區段的連鎖圖一般結合具體的GWAS等的位點一塊展示,這個是不可能全基因組繪制的
GWAS
- 分析原理
- 基本思想:應用于復雜性狀,采用CASE-CONTROL試驗設計,比較全基因組范圍內所有SNP位點的等位基因或者基因型頻率在case與control組中的差異,如果某個snp位點等位基因或者等位基因型case組中的頻率明顯高于或者低于caontrol組,則認為該位點與該疾病間存在關聯
- 分析軟件
- MVP
- GEmma
- plink
- taseel
- GAPIT
- FarmCpu
- 算法
- LM
- MLM
- FarmCpu
- 方案設計要點
- 群體大小 >300
- 群體分層不明顯(具有一致的遺傳背景或者資源的群體)
- 覆蓋全基因組的高密度的標記(至少保證平均一個block內有一個標記,中玉金標記公司內現有芯片只有660k符合)
- 表型數據記錄準確性
- 植物數據盡量是多年多點的數據
- 表型分布比較廣泛(大體成正太分布)
-
結果展示
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
- 結果要點
群體進化高級分析-群體選擇消除分析
pi
-
分析原理
- π用來分析堿基多態性,多態性越低,受選擇程度越高。
-
分析軟件
- vcftools
算法
結果展示
結果要點
fst
- 分析原理
- 群體的固定系數F反映了群體等位基因雜合性水平。固定系數F是F統計量(Fst)的一個特例。Fst分析表示群體的分化程度,值越大,群體分化程度越高,受選擇程度越高。
- 分析軟件
- vcftools
- 算法
- 結果展示
在這里插入圖片描述
- 結果要點
XP-LXR
- 分析原理
- 分析軟件
- 算法
- 結果展示
- 結果要點
D
w
ROH
群體進化高級分析-種群動態等
PSMC
- 分析原理
- 分析軟件
- 算法
-
結果展示
在這里插入圖片描述
- 結果要點
Treemix
- 分析原理
- 分析軟件
- 算法
-
結果展示
在這里插入圖片描述
- 結果要點
案例解讀
群體進化
案例一:NG-熊貓群體進化-2012
- 文章:Whole-genome sequencing of giant pandas provides insights into demographic history and local adaptation
- 基礎數據:34只熊貓,4.7x覆蓋深度
- 分析結果:
-
群體結構分析
在這里插入圖片描述
-
* 種群歷史動態分析
在這里插入圖片描述
* 選擇消除分析結果注釋情況
* 該項目使用fst進行選擇消除分析,分析后受選擇的基因進行KEGG富集分析
在這里插入圖片描述
案例二:NC-牦牛群體進化-2015
文章:Yak whole-genome resequencing reveals domestication signatures and prehistoric population expansions
基礎數據:13野生牦牛和59馴化品種,6.7X測序深度,14.56M高質量SNP
-
分析結果
-
群體結構分析
在這里插入圖片描述
-
* 選擇消除分析
在這里插入圖片描述
* 種群歷史動態分析 && 統計分析
*
在這里插入圖片描述
gwas
案例一:NG-韓斌2010年經典水稻14農藝性狀GWAS文章
- 文章:Genome-wide association studies of 14 agronomic traits in rice landraces
- 基礎數據:517水稻樣品,3.6M SNP,水稻indica,japonica
-
看下文章的作者
在這里插入圖片描述
-
分析結果
-
tree && LD && maf
在這里插入圖片描述
-
* tree && PCA
在這里插入圖片描述
* imputation 準確性評估(2010年測序成本還很高,所以進行的地深度測序,進行缺失推斷)
* 這里評估了LD,測序錯誤,測序覆蓋情況,樣品數量對推斷結果的影響
在這里插入圖片描述
* GWAS結果曼哈頓圖和QQ圖展示
* 使用了兩種算法,一般線性模型和混合線性模型
在這里插入圖片描述
* gwas關聯定位情況統計表格
* 展示基本的性狀,定位染色體,位點,兩種基因型,最小等位基因頻率,p值以及前期研究的積累的情況
在這里插入圖片描述
* GWAS結果曼哈頓圖局部展示與基因結構展示
在這里插入圖片描述
* 定位位點及數量統計
* 其實是有對比兩種算法的結果
在這里插入圖片描述
案例二:NG-韓斌2011年水稻開花期與果實性狀GWAS文章
- 文章:Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm
- 基礎數據:950水稻樣品,來源于33個國家,4.1M snp
- 數據過濾:maf 0.05
- 為什么可以很快又發一篇NG
- 樣品來源范圍及樣品數量擴大
- 性狀改變
-
重點進行了結果單體型的分析
在這里插入圖片描述
- 分析結果
- tree && fst
-
相對于2010年的文章,該次進行了群體間fst分析
在這里插入圖片描述
-
- tree && fst
* 6個已定位基因的關鍵變異信息
2011-hanbin-rice-3.png
* 單體型的結果展示
在這里插入圖片描述
* 單體型的數據統計
在這里插入圖片描述
* GWAS結果曼哈頓圖和QQ圖
* 這次可以看到沒有一般線性模型了,那是因為上篇比較過,沒必要再進行比較了
在這里插入圖片描述
* GWAS定位基因情況
* 本篇中比較簡潔,性狀,染色體,物理位置,基因,基因的描述
在這里插入圖片描述
* 局部定位結果及基因結構情況
* 注意,這里加入了表達量的情況
在這里插入圖片描述
案例三:NG-日本2016年水稻開花相關基因性狀GWAS分析
- 文章:Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice
- 基礎數據:176japonica,5.8X,383g,426k snp,67k indel
- 過濾maf:0.05
- 分析結果
- 表型數據信息,以及176樣品能夠代表413樣品(我記得該文章是從之前文章的數據中拿了176樣品進行的GWAS分析)
在這里插入圖片描述
* 表型處理后分布統計情況及PCA展示群體情況
在這里插入圖片描述
* 不同性狀GWAS分析結果情況
* 文章證據充分:
1. 做了轉基因(轉的不同的單體型)的對照實驗
2. 單體型分析到位:包含snp和indel
3. 對gwas定位結果的分級,為后期驗證的順序有指導意義
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
案例四:NG-棉花-纖維相關性狀GWAS分析
文章:Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield
基礎數據:419樣品,6.55X數據,3.66M snp,13個性狀
第一批棉花gwas項目,對A,D基因組差異進行了分析,環境有12個,有相應的擬南芥過表達表型驗證
-
分析結果
-
數據注釋統計
在這里插入圖片描述
-
* 群體結構分析
在這里插入圖片描述
* 亞群多態性和LD分析
在這里插入圖片描述
* GWAS分析結果
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
群體進化+GWAS
案例一:NBT-田志喜-大豆-2014群體gwas文章
- 文章:resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
- 基礎數據:302個野生,栽培,地方品種大豆,11X,
- 分析結果
-
樣品來源與群體結構
在這里插入圖片描述
-
* LD分析
在這里插入圖片描述
* 選擇消除分析與GWAS分析結果
在這里插入圖片描述
在這里插入圖片描述
* fst統計分析
在這里插入圖片描述
在這里插入圖片描述