内射人妻骚骚骚,性色av免费观看,少女b站哔哩哔哩免费观看

在前面我們探討了兩條序列是如何通過動態(tài)規(guī)劃算法進行比對的，但是在現(xiàn)如今的擁有海量數(shù)據(jù)的數(shù)據(jù)庫中，想直接通過動態(tài)規(guī)劃算法來將所有的序列與query序列一個一個進行比較式不切實際的。因此NCBI數(shù)據(jù)庫開發(fā)了blast算法，用來快速的找到與query序列相似度最高的序列。

blast算法簡介

blast算法采用的是一種啟發(fā)式算法。首先將query序列打斷成子片段，稱之為seed words，然后將seed與預(yù)先索引好的序列進行比對，選擇seed連續(xù)打分較高的位置采用動態(tài)規(guī)劃算法進行延伸，延伸過程也會進行打分，當(dāng)打分低于某一限度這一延伸過程就會被終止拋棄，最后產(chǎn)生了一系列的高得分序列。最后還要使用E-value對其顯著性進行評估，選出比對結(jié)果最好的序列。blast的執(zhí)行過程大致如下圖所示：

blast算法執(zhí)行原理

1、seeding

seeding

對于一條query序列，blast并非直接將其進行比對，而是先將其打斷成多個片段（seed words）。而且得到的這些seed words也不是直接拿來用的，還要經(jīng)過一些過濾處理。
首先，對于那些復(fù)雜度低的序列，如重復(fù)序列，信息含量少，我們將它從seed words中直接去除，以提高速度和降低假陽性。
其次，為提高比對敏感度，blast還會增加一些seed，稱之為“neibourhood words”，這些“neibourhood words”是用seed words采用替換矩陣比對得到的與seed words相似的高得分序列。

2、Index database

image.png

而后，通過事先建立好的索引表，來在數(shù)據(jù)庫中快速定位相關(guān)的候選序列以及在候選序列中的具體位置。通過對所有的seed均重復(fù)上述操作，就可以得到查詢序列與候選數(shù)據(jù)庫序列之間的hit map。

根據(jù)前一單元的討論，我們知道最優(yōu)比對對應(yīng)的路徑應(yīng)該平行于主對角線。因此，我們可以進一步去掉那些零散的hits，而只允許沿對角線方向有兩個及兩個以上連續(xù)hits的hit cluster，以便進一步縮小搜索空間。

hit cluster

3、Extension

接下來，我們就可以以這些hit cluster為基礎(chǔ)，向左右兩個方向延伸以擴展得到HSP，直到總分?jǐn)?shù)的下降超過一個給定的值X后。在擴展后的區(qū)域，我們可以應(yīng)用上節(jié)課講過的動態(tài)規(guī)劃算法，以便確定最終的比對，從而顯著降低了計算量。
在得到HSP后還需最后一步對其進行評估打分排序，以獲得最為相似的序列。

4、E-value

為什么要進行評估？
舉個例子，對于一個長度為L的蛋白序列，有(1/20)^L的概率會碰到一條完全一致的隨機序列。也就是說，假定你的蛋白序列長度為6個氨基酸，這個概率就是1.56 * 10(-8)。那么，現(xiàn)在你用這個蛋白序列在Swiss-Prot數(shù)據(jù)庫中進行檢索，那么隨機情況下就會期望有3個100%的匹配（隨機概率*數(shù)據(jù)庫中蛋白質(zhì)序列的數(shù)量），即使這個長度為6的序列完全是隨機產(chǎn)生的。因此，我們需要有一個方法，來客觀的評估一個比對的統(tǒng)計顯著性在我們得到最終的比對之后，我們還需要評估這個比對的統(tǒng)計顯著性，以確保這個比對不是由隨機因素引起的。在BLAST中，用E-value來對此進行度量。簡單的說，E-value是指在隨機情況下，獲得比當(dāng)前比對分?jǐn)?shù)相等或更高分?jǐn)?shù)的可能比對條數(shù)。具體來說，如果一個比對的E-value = 10，就意味著會有10個隨機匹配獲得與當(dāng)前比對相等或更高的分?jǐn)?shù)。E-value的值可以利用下面的式子進行計算：

E-value

其中， m是query sequence的長度。 n是數(shù)據(jù)庫的大小。 e是自然對數(shù)，S是你的分?jǐn)?shù)。 K和lambda是和打分矩陣相關(guān)的相當(dāng)于是一個normalization（歸一化）的factor（因子）。從下面的公式我們可以看到， E值的大小與數(shù)據(jù)庫大小n成正比，也就是說數(shù)據(jù)庫越大，隨機匹配的可能性也就越大，和我們剛剛看到的例子是相符的。另一方面，E值的大小與查詢序列的長度m也成正比這是因為BLAST是局部比對，不需要全長的匹配。與我們的直覺相符， E值與比對的分?jǐn)?shù)S負相關(guān)，也就是說如果分?jǐn)?shù)越高，隨機碰上的可能性就越小。同時，公式中的lambda和k是與打分系統(tǒng)與搜索空間相關(guān)的兩個修正值，用來平衡不同打分矩陣以及搜索空間對于結(jié)果的影響。
為了方便解釋，我們可以進一步的把p值和E值進行相互轉(zhuǎn)換，從圖上可以看出，在小于0.1時， E值和p值，也就是概率值，幾乎相等。特別的，當(dāng)p取0.05時，對應(yīng)的E-value為0.0513，因此也常有人將0.05作為E-value的cut-off。

image.png

總結(jié)

與Needleman-Wunsch、Smith-Waterman等基于動態(tài)規(guī)劃的算法不同， BLAST是一種啟發(fā)式的算法，也就是說，它并不確保能找到最優(yōu)解，但盡力在更短時間內(nèi)找到足夠好的解。具體來說，BLAST通過應(yīng)用Seeding-and-extending策略，只在有限區(qū)域應(yīng)用動態(tài)規(guī)劃算法，從而有效地降低了計算量、提高了計算速度。然而，速度的提高是以靈敏度的下降為代價的，這也是我們之后會提到的一系列啟發(fā)式算法所共有的trade-off。

參考：北京大學(xué)公開課——生物信息學(xué): 導(dǎo)論與方法

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

blast算法初探

blast算法初探

blast算法簡介

1、seeding

2、Index database

3、Extension

4、E-value

總結(jié)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

blast算法初探

blast算法簡介

1、seeding

2、Index database

3、Extension

4、E-value

總結(jié)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频