KMP算法是一種改進的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt三人同時發現,因此人們稱它為Knuth-Morris-Pratt算法(簡稱KMP)。KMP算法的關鍵是利用匹配失敗后的信息,盡量減少模式串與主串的匹配次數以達到快速匹配的目的。具體實現依賴一個next()函數,函數本身包含了模式串的局部匹配信息,其時間復雜度為O(m+n)。
網上有很多文章講解KMP算法,但都不夠清晰透徹、通俗易懂,尤其在介紹最令人困惑的next()函數時,解釋拗口,模棱兩可,讓讀者理解起來頗為費勁。本人通過閱讀各路大神的學習筆記,汲取其中精華部分,并結合自我理解,帶你全面剖析KMP算法思想及實現,希望對學習KMP算法仍有盲區和疑惑的同學有所幫助。
KMP算法的原理
舉例來說,有一個字符串”BBC ABCDAB ABCDABCDABDE”(稱為主串),我想知道,里面是否包含另一個字符串”ABCDABD”(稱為模式串)?
1.首先,主串”BBC ABCDAB ABCDABCDABDE”的第一個字符與模式串”ABCDABD”的第一個字符,進行比較。因為B與A不匹配,所以模式串需要后移一位。
2.因為B與A不匹配,模式串需要再往后移。
3.就這樣,直到主串有一個字符,與模式串的第一個字符相同為止。
4.接著比較主串和模式串的下一個字符,發現還是相同。
5.直到主串有一個字符,與模式串對應的字符不相同為止,如下圖所示。
6.這時,最自然的反應是,將模式串整個后移一位,再從頭逐個比較。這樣做雖然可行,但是效率很差,因為你要把”搜索位置”移到已經比較過的位置,重比一遍。
7.一個基本事實是,當空格與D不匹配時,你其實知道前面六個字符是”ABCDAB”。KMP算法的想法是,設法利用這個已知信息,不要把”搜索位置”移回已經比較過的位置,繼續把它向后移,這樣就提高了效率。
8.怎么做到這一點呢?可以針對模式串,算出一張《部分匹配表》(Partial Match Table)。這張表是如何產生的,后面再介紹,這里只要會用就可以了。
9.如下圖所示,已知空格與D不匹配時,前面六個字符”ABCDAB”是匹配的。查表可知,”ABCDAB”中最后一個匹配字符B對應的”部分匹配值”為2,因此按照下面的公式算出向后移動的位數:
移動位數 = 已匹配的字符數 - 對應的部分匹配值
因為 6 - 2 等于4,所以將模式串整體向后移動4位。
10.如下圖,因為空格與C不匹配,模式串還要繼續往后移。這時,已匹配的字符數為2(”AB”),對應的”部分匹配值”為0。所以,移動位數 = 2 - 0,結果為 2,于是將模式串向后移2位。
11.如下圖所示,因為空格與A不匹配,需要繼續后移一位。
12.逐位比較,直到發現C與D不匹配。于是,移動位數 = 6 - 2,繼續將模式串向后移動4位。
13.逐位比較,直到模式串的最后一位,發現完全匹配,于是搜索完成。如果還要繼續搜索(即找出全部匹配),移動位數 = 7 - 0,再將模式串向后移動7位,這里就不再重復了。
部分匹配表
下面介紹《部分匹配表》是如何產生的。
首先,要了解兩個概念:”前綴”和”后綴”。 “前綴”指除了最后一個字符以外,一個字符串的全部頭部組合;”后綴”指除了第一個字符以外,一個字符串的全部尾部組合。
“部分匹配值”就是”前綴”和”后綴”的最長的共有元素的長度。以”ABCDABD”為例,
- "A"的前綴和后綴都為空集,共有元素的長度為0;
- "AB"的前綴為[A],后綴為[B],共有元素的長度為0;
- "ABC"的前綴為[A, AB],后綴為[BC, C],共有元素的長度0;
- "ABCD"的前綴為[A, AB, ABC],后綴為[BCD, CD, D],共有元素的長度為0;
- "ABCDA"的前綴為[A, AB, ABC, ABCD],后綴為[BCDA, CDA, DA, A],共有元素為"A",長度為1;
- "ABCDAB"的前綴為[A, AB, ABC, ABCD, ABCDA],后綴為[BCDAB, CDAB, DAB, AB, B],共有元素為"AB",長度為2;
- "ABCDABD"的前綴為[A, AB, ABC, ABCD, ABCDA, ABCDAB],后綴為[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的長度為0。
按照定義,”ABCDAB”的部分匹配表即如下所示:
“部分匹配值”的實質是,有時候,字符串頭部和尾部會有重復。比如,”ABCDAB”之中有兩個”AB”,那么它的”部分匹配值”就是2(”AB”的長度)。模式串移動的時候,第一個”AB”向后移動4位(字符串長度-部分匹配值),就可以來到第二個”AB”的位置。
理解next數組
理解KMP算法的核心和難點就是理解next數組的巧妙設計,下面我會重點解釋next數組的含義。
next數組,又叫做“失配函數”,它是以下標 0 開始的數組,為了方便大家理解,給出如下圖示:
根據 KMP 算法,在失配位會調用該位的 next 數組的值,下面我將詳細道出next數組的來龍去脈。
next[i]表示在失配位i之前的最長公共前后綴的長度。
首先,我們取之前已經匹配的部分(即藍色的那部分!)
我們在上面說到“最長公共前后綴”,體現到下圖所示的樣子。
next數組的作用是通過尋找最長公共前后綴的部分,快速移動模式串,從而提高字符串匹配的效率,如下圖所示:
next[i]返回當前位置i的最長公共前后綴的長度,假設為 len 。因為數組是由 0 開始的,所以 next 數組讓模式串的第 len 位與主串匹配就是拿最長前綴之后的第 1 位與失配位重新匹配,避免匹配串從頭開始,如下圖所示。
如果上圖中的紅色位置依然匹配失效,則需要對上圖中的綠色部分再次去求解它的最長公共前后綴長度(假設為len’),然后繼續向右移動模式串,讓模式串的第 len’ 位與主串的失配位重新進行匹配,如果仍舊不匹配,則繼續以上過程操作。如下圖所示:
我們發現,當發生失配的時候,可以借助遞推的思想,根據已知的結果繼續求出當前失配位之前的最長公共前后綴的長度,然后,繼續移動模式串,從而進行新一輪的字符串匹配。
解釋這么多,那么next數組究竟如何求出呢?
我們需要分兩種情況考慮。
1.當紅色部分相同(即S[k]==S[q])時,則當前 next 數組的值為上一次 next 的值加一(即next[q] = k++),如上圖所示。
2.當紅色部分不等的時候,則需要對綠色部分遞推求解 k’ = next[k-1],然后再對新的 k’ 位置字符與 q 位置字符進行匹配,如果相等,則 next[q] = k’+1,否則,執行遞推匹配,直到k’=0時遞推結束。比如,模式串“ABCABXABCABC”,最后一個字符C的next數組值為3。(因為C之前的最長公共前后綴為“ABCAB”,而“ABCAB”的最長公共前后綴為“AB”,其長度為2,又源于第三個字符C與最后一個字符C匹配,所以最后一個字符C的next數組值為3)
代碼實現
創建文件kmp.c,內容如下:
#include<stdio.h>
#include<string.h>
void makeNext(const char P[],int next[])
{
int q,k;
int m = strlen(P);
next[0] = 0;
for (q = 1,k = 0; q < m; ++q)
{
while(k > 0 && P[q] != P[k])
k = next[k-1];
if (P[q] == P[k])
{
// 上一次的next值+1
k++;
}
next[q] = k;
}
}
void kmp(const char T[],const char P[],int next[])
{
int n,m;
int i,q;
n = strlen(T);
m = strlen(P);
makeNext(P,next);
for (i = 0,q = 0; i < n; ++i)
{
while(q > 0 && P[q] != T[i])
q = next[q-1];
if (P[q] == T[i])
{
q++;
}
if (q == m)
{
q=0;
printf("Pattern occurs with shift: %d\n",(i-m+1));
}
}
}
int main()
{
int i;
int next[20]={0};
char T[] = "BBC ABCDABD ABCDABCDABDE";
char P[] = "ABCDABD";
printf("主串:%s\n",T);
printf("模式串:%s\n",P );
kmp(T,P,next);
printf("next數組:");
for (i = 0; i < strlen(P); ++i)
{
printf("%d ",next[i]);
}
printf("\n");
return 0;
}
保存后,在終端執行如下編譯命令:
$ gcc -o kmp kmp.c
$ ./kmp
# 其運行結果如下:
主串:BBC ABCDABD ABCDABCDABDE
模式串:ABCDABD
Pattern occurs with shift: 4
Pattern occurs with shift: 16
next數組:0 0 0 0 1 2 0
總結
理解KMP算法的難點就在于理解next數組的實現,在遇到失配位時能夠靈活地應用遞推方法,根據已知的結果,進一步求解出子最長公共前后綴的長度,然后進一步的完成新一輪的匹配,從而避免從頭開始,極大提高了匹配速率。kmp算法的時間復雜度O(n+m),可以采用均攤分析來解答,具體可參考算法導論。
參考文章:
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 作者-阮一峰
http://www.tuicool.com/articles/e2Qbyyf