序言
大晚上的不知道干些啥好,想起了之前積累的一個(gè)小小的問題。
這里搜一下資料,快速的整理出一小篇文章好了~
內(nèi)容大概就是 N種phylogenetic tree上不同的數(shù)字
基本的系統(tǒng)發(fā)育樹
系統(tǒng)發(fā)育樹大概是最最常見的一個(gè)結(jié)果圖了,大家都知道樹長什么樣,但是卻不一定知道上面的數(shù)字意義是什么。又或者只知道其中的幾種。
以上的樹結(jié)構(gòu),算是比較常見的一種,一般也會(huì)有圖例表示,多長的長度代表多遠(yuǎn)的距離,所以甚至?xí)?strong>不標(biāo)記任何的數(shù)字,因?yàn)橹чL(branch length)本身就攜帶了大量的信息。
那么如何閱讀一棵樹的信息呢,上圖也寫的比較清楚。物種A與物種B的距離就是AA+BB,至于這個(gè)支長是什么,下文再去說有哪些測度(metrics)可以用以表征這個(gè)相似度,但是總的而言,如果需要比較兩個(gè)物種的距離,即支長的不斷相加。
樹是什么?
如果要我解釋的話。
樹就是距離矩陣的可視化結(jié)果
每個(gè)葉子節(jié)點(diǎn)就是距離矩陣的橫軸或者縱軸,由于樹上每兩個(gè)葉子節(jié)點(diǎn)間都可以兩兩到達(dá),結(jié)合上述的物種的距離,最后就會(huì)得到一個(gè)距離矩陣,而一個(gè)距離矩陣卻可以得到多個(gè)樹的結(jié)果。(取決于 有/無根 樹的畫法等)
數(shù)字的定義
上述的定義,其實(shí)也可以看這篇文獻(xiàn)的原始的legend。首先斜杠不代表除法,僅僅代表或的意思。左側(cè)貝葉斯后驗(yàn)概率的百分比,右側(cè)是通過bootstrap進(jìn)行計(jì)算的百分比,簡單點(diǎn)說,兩個(gè)都是代表了這個(gè)node以下的樹結(jié)構(gòu)的可靠程度。
關(guān)于bootstrap的計(jì)算,可以參考Bootstrapping phylogenetic Trees: theory and methods
標(biāo)在Node(頂點(diǎn))上的數(shù)字,大多為置信程度,代表該node以下的樹結(jié)構(gòu)的可靠程度 (A圖)
標(biāo)在邊上的數(shù)字,則為支長的具體數(shù)值。(B圖)
建樹的方法
雖然建樹的標(biāo)準(zhǔn)有很多,但是概括來說,phylogenetic tree的方法有三種
1. Parsimony (簡約法)
將需要比較的東西進(jìn)行 binary(二元)化,例如有無毛發(fā),有無皮膚等基于特征的方法。
為什么叫簡約法?
就是因?yàn)槎螅ㄟ^層次遞進(jìn),就可以推導(dǎo)出共同祖先。即用最少的信息即可描述子節(jié)點(diǎn)的過程。
2. Distance Matrix based
基于距離矩陣,有距離矩陣就有樹。。。如上
3. Maximum likelihood(最大似然)
通過最大似然的估算,一個(gè)很長的貝葉斯概率計(jì)算,通過最大化結(jié)果,從而得到樹
結(jié)尾
。。。這是篇很簡單以及很水的文章(畢竟只花了1h不到。。),希望大家也可以1分鐘看完。。
reference
Phylogenetics
PCB_Lect11_Phylogen_Trees.pdf
youtube Maximum likelihood for phylogenetic tree reconstruction