生信分析23:基因對之間的正選擇分析

在這篇文章中,作者提到候選基因受到正選擇。看附表19給的數據,該說法的依據是作者對普通蕎麥和苦蕎的直系同源基因對做了Ka/Ks分析,其值大于1。

今天的推送,將介紹如何對兩個基因組之間的直系同源基因對計算Ka、Ks及Ka/Ks.

中性理論與自然選擇

中性理論認為:大部分對種群的遺傳結構與進化有貢獻的分子突變在自然選擇的意義上都是中性或近中性的,因而自然選擇對這些突變并不起作用。中性突變的進化是隨機漂移的過程,或被固定在種群中,或消失。也就是說,中性理論認為我們今天觀察到的遺傳變異(無論是種內多態性還是種間分歧),均不取決于自然選擇所驅動的有利突變的固定,而是取決于那些中性突變的隨機固定。有利突變對個體具有優勢,從而得以保留和固定;有害突變可能導致個體的生存力或育性降低從而被淘汰。

需要注意的是,發生在基因區域的大多數突變是有害的,會被凈化選擇所清除;核昔酸置換率近似等于中性突變率;功能較重要的基因或基因區域的進化較慢,即觀測到的突變比較少。

同義置換和非同義置換

不導致氨基酸改變的核昔酸變異稱為同義置換,反之則稱為非同義置換。一般認為,同義置換不受自然選擇,而非同義置換則受到自然選擇。

基于Ka/Ks鑒定正選擇

dn(可寫為Ka): 平均每個潛在非同義位點上發生非同置換的數目,一般簡稱非同義置換率。

ds(可寫為Ks):平均每個潛在同義位點上發生同義置的數目,一般簡稱同義置換率。

ω:非同義/同義置換率的比率,ω=dn/ds

若將同義置換率作為基準點(作為分母),我們可以推斷自然選擇在非同義置換固定過程中是起推動還是阻礙作用。非同義/同義置換率的比可在蛋白質水平度量選擇壓力。

計算過程

s表示潛在同義位點數,等于所有位置上發生同義改變的比例之和,在給定的實例中,phase0和1出現同義替換的比例均為0,phase出現同義替換的概率為1,所以s=0+0+1=1.

n表示潛在的非同一位點數目,等于所有位點數目減去s,即3-1=2.

在給定的例子中,假設突變后的結果為GCG (Ala),即發生了一次非同義替換

則平均每個潛在非同義位點上發生非同置換的數目(即dn)為1/2=0.5;

平均每個潛在同義位點上發生同義置的數目(即ds)為0/1=0;

ω=dn/ds的值用來檢測基因是否受到正選擇:

ω明顯大于1,即非同義替換都被保留了,基因受到正選擇,這種情況較少,也是后續分析的重點;

ω接近1,基因受到中性選擇;

ω明顯小于1,基因受到純化選擇,大多數基因計算得到的是這種情況,說明凈化選擇的普遍性。

正選擇分析

本想用homo以及苦蕎的基因組重復下本文的分析,但是始終找不到本文組裝的homo基因組,挺奇怪的。

后面的演示用擬南芥和鹽芥的數據,用到CDS和蛋白序列。

第一步 鑒定直系同源基因對??

這一步可以直接用兩次blast完成,在這里用到了wgd軟件的dmd功能,也可以達到類似的目的。wgd(https://github.com/arzwa/wgd)軟件可直接用conda完成配置,該軟件主要用來做全基因組復制分析,本次推送不涉及,后續可能會有專門的推送。

--eval 設置blast的閾值,一般為1e-10,最終的輸出文件保存了在擬南芥和鹽芥中鑒定到的同源基因對。

第二步 同源系列比對

這一步主要用到ParaAT工具,下載鏈接https://ngdc.cncb.ac.cn/tools/paraat,解壓后即可使用。

運行ParaAT時輸入的CDS和蛋白序列是fa格式,需要主要把標題行中其他不必要信息去除,否則輸出目錄align_out下面為空。

第三步 計算Ka、Ks值

Kaks_Calculator軟件可從https://github.com/lizzhao/Kaks_Calculator下載。

-m指定計算模型,設定為YN更接近CodeML的計算結果。如果不指定,會利用所有模型計算一遍,運行非常慢。

輸出結果保存在result.txt。

第一列為直系同源基因對,第二列為指定的計算模型,三四列為Ka和Ks值,第五列為兩者的比值,第六列是該計算的Pvalue。大多數的Ka/Ks都是小于1的,>1即表示存在正選擇,結合Pvalue確定受到正選擇的基因。

參考內容

https://genek.cn/

侵刪,后臺聯系即可。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容