KMP字符串模式匹配算法Java實(shí)現(xiàn)

版權(quán)聲明：本文源自簡(jiǎn)書tianma，轉(zhuǎn)載請(qǐng)務(wù)必注明出處： http://www.lxweimin.com/p/e2bd1ee482c3

本文靈感來(lái)自于July的博客從頭到尾徹底理解KMP，并著重于Java實(shí)現(xiàn) :)。現(xiàn)有字符串匹配算法有不少，如簡(jiǎn)單暴力的樸素算法(暴力匹配算法)、KMP算法、BM算法以及Sunday算法等，在這里僅介紹前兩種算法。

1. 樸素算法
樸素算法即暴力匹配算法，對(duì)于長(zhǎng)度為n的文本串S和長(zhǎng)度為m模式串P，在文本串S中是否存在一個(gè)有效偏移i，其中 0≤ i < n - m + 1，使得 S[i... i+m - 1] = P[0 ... m-1]（注：下標(biāo)從0開始），如果存在則匹配成功，否則匹配失敗。由于在匹配過程中一旦不匹配，就要讓模式串P相對(duì)于文本串S右移1，即i需要進(jìn)行回溯，其時(shí)間復(fù)雜度為O(n*m)。
Java實(shí)現(xiàn)：

    // 定義接口
    interface StringMatcher {
        /**
         * 從原字符串中查找模式字符串的位置,如果模式字符串存在,則返回模式字符串第一次出現(xiàn)的位置,否則返回-1
         * 
         * @param source
         *            原字符串
         * @param pattern
         *            模式字符串
         * @return if substring exists, return the first occurrence of pattern
         *         substring, return -1 if not.
         */
        int indexOf(String source, String pattern);
    }
    /**
     * 暴力匹配
     * <p>
     * 時(shí)間復(fù)雜度: O(m*n), m = pattern.length, n = source.length
     */
    class ViolentStringMatcher implements StringMatcher {

        @Override
        public int indexOf(String source, String pattern) {
            int i = 0, j = 0;
            int sLen = source.length(), pLen = pattern.length();
            char[] src = source.toCharArray();
            char[] ptn = pattern.toCharArray();
            while (i < sLen && j < pLen) {
                if (src[i] == ptn[j]) {
                    // 如果當(dāng)前字符匹配成功,則將兩者各自增1,繼續(xù)比較后面的字符
                    i++;
                    j++;
                } else {
                    // 如果當(dāng)前字符匹配不成功,則i回溯到此次匹配最開始的位置+1處,也就是i = i - j + 1
                    // (因?yàn)閕,j是同步增長(zhǎng)的), j = 0;
                    i = i - j + 1;
                    j = 0;
                }
            }
            // 匹配成功,則返回模式字符串在原字符串中首次出現(xiàn)的位置;否則返回-1
            if (j == pLen)
                return i - j;
            else
                return -1;
        }
    }

2. KMP算法
與樸素算法不同，樸素算法是當(dāng)遇到不匹配字符時(shí)，向后移動(dòng)一位繼續(xù)匹配，而KMP算法是當(dāng)遇到不匹配字符時(shí)，不是簡(jiǎn)單的向后移一位字符，而是根據(jù)前面已匹配的字符數(shù)和模式串前綴和后綴的最大相同字符串長(zhǎng)度數(shù)組next的元素來(lái)確定向后移動(dòng)的位數(shù)，所以KMP算法的時(shí)間復(fù)雜度比樸素算法的要少，并且是線性時(shí)間復(fù)雜度，即預(yù)處理時(shí)間復(fù)雜度是O(m)，匹配時(shí)間復(fù)雜度是O(n)。

next數(shù)組含義：代表在模式串P中，當(dāng)前下標(biāo)對(duì)應(yīng)的字符之前的字符串中，有多大長(zhǎng)度的相同前綴后綴。例如如果next [j] = k，代表在模式串P中，下標(biāo)為j的字符之前的字符串中有最大長(zhǎng)度為k 的相同前綴后綴。

KMP算法的核心就是求next數(shù)組，在字符串匹配的過程中，一旦某個(gè)字符匹配不成功，next數(shù)組就會(huì)指導(dǎo)模式串P到底該相對(duì)于S右移多少位再進(jìn)行下一次匹配，從而避免無(wú)效的匹配。

next數(shù)組求解方法：

next[0] = -1。
如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止

詳細(xì)的介紹及分析還請(qǐng)移步從頭到尾徹底理解KMP，在下語(yǔ)拙 :(
Java實(shí)現(xiàn)：

    /**
     * KMP模式匹配
     * @author Tianma
     *
     */
    class KMPStringMatcher implements StringMatcher {

        /**
         * 獲取KMP算法中pattern字符串對(duì)應(yīng)的next數(shù)組
         * 
         * @param p
         *            模式字符串對(duì)應(yīng)的字符數(shù)組
         * @return
         */
        protected int[] getNext(char[] p) {
            // 已知next[j] = k,利用遞歸的思想求出next[j+1]的值
            // 如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
            // 1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
            // 2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,
            // 如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止
            int pLen = p.length;
            int[] next = new int[pLen];
            int k = -1;
            int j = 0;
            next[0] = -1; // next數(shù)組中next[0]為-1
            while (j < pLen - 1) {
                if (k == -1 || p[j] == p[k]) {
                    k++;
                    j++;
                    next[j] = k;
                } else {
                    k = next[k];
                }
            }
            return next;
        }

        @Override
        public int indexOf(String source, String pattern) {
            int i = 0, j = 0;
            char[] src = source.toCharArray();
            char[] ptn = pattern.toCharArray();
            int sLen = src.length;
            int pLen = ptn.length;
            int[] next = getNext(ptn);
            while (i < sLen && j < pLen) {
                // 如果j = -1,或者當(dāng)前字符匹配成功(src[i] = ptn[j]),都讓i++,j++
                if (j == -1 || src[i] == ptn[j]) {
                    i++;
                    j++;
                } else {
                    // 如果j!=-1且當(dāng)前字符匹配失敗,則令i不變,j=next[j],即讓pattern模式串右移j-next[j]個(gè)單位
                    j = next[j];
                }
            }
            if (j == pLen)
                return i - j;
            return -1;
        }
    }

3. 優(yōu)化的KMP算法（改進(jìn)next數(shù)組）
具體過程移步從頭到尾徹底理解KMP的3.3.8 Next 數(shù)組的優(yōu)化
在這里給出Java實(shí)現(xiàn)：

    /**
     * 優(yōu)化的KMP算法(對(duì)next數(shù)組的獲取進(jìn)行優(yōu)化)
     * 
     * @author Tianma
     *
     */
    class OptimizedKMPStringMatcher extends KMPStringMatcher {

        @Override
        protected int[] getNext(char[] p) {
            // 已知next[j] = k,利用遞歸的思想求出next[j+1]的值
            // 如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
            // 1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
            // 2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,
            // 如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止
            int pLen = p.length;
            int[] next = new int[pLen];
            int k = -1;
            int j = 0;
            next[0] = -1; // next數(shù)組中next[0]為-1
            while (j < pLen - 1) {
                if (k == -1 || p[j] == p[k]) {
                    k++;
                    j++;
                    // 修改next數(shù)組求法
                    if (p[j] != p[k]) {
                        next[j] = k;// KMPStringMatcher中只有這一行
                    } else {
                        // 不能出現(xiàn)p[j] = p[next[j]],所以如果出現(xiàn)這種情況則繼續(xù)遞歸,如 k = next[k],
                        // k = next[[next[k]]
                        next[j] = next[k];
                    }
                } else {
                    k = next[k];
                }
            }
            return next;
        }

    }

4. 花絮
提到字符串匹配，或者說(shuō)字符串查找，我們會(huì)想到Java中的String類就有一個(gè)String.indexOf(String str);方法，那它使用的是什么算法呢？在這里截取JavaSE-1.8的源碼：

    // String.indexOf(String str); 最終會(huì)調(diào)用該方法
    /**
     * Code shared by String and StringBuffer to do searches. The
     * source is the character array being searched, and the target
     * is the string being searched for.
     *
     * @param   source       the characters being searched.(源字符數(shù)組)
     * @param   sourceOffset offset of the source string.(源字符數(shù)組偏移量)
     * @param   sourceCount  count of the source string.(源字符數(shù)組長(zhǎng)度)
     * @param   target       the characters being searched for.(待搜索的模式字符數(shù)組)
     * @param   targetOffset offset of the target string.(模式字符數(shù)組偏移量)
     * @param   targetCount  count of the target string.(模式數(shù)組長(zhǎng)度)
     * @param   fromIndex    the index to begin searching from.(從原字符數(shù)組的哪個(gè)下標(biāo)開始查詢)
     */
    static int indexOf(char[] source, int sourceOffset, int sourceCount,
            char[] target, int targetOffset, int targetCount,
            int fromIndex) {
        if (fromIndex >= sourceCount) {
            return (targetCount == 0 ? sourceCount : -1);
        }
        if (fromIndex < 0) {
            fromIndex = 0;
        }
        if (targetCount == 0) {
            return fromIndex;
        }

        char first = target[targetOffset];
        int max = sourceOffset + (sourceCount - targetCount);

        for (int i = sourceOffset + fromIndex; i <= max; i++) {
            /* Look for first character. */
            // 找到第一個(gè)匹配的字符的位置
            if (source[i] != first) {
                while (++i <= max && source[i] != first);
            }

            /* Found first character, now look at the rest of v2 *
            if (i <= max) {
                // 找到了第一個(gè)匹配的字符，看余下的是否完全匹配
                int j = i + 1;
                int end = j + targetCount - 1;
                for (int k = targetOffset + 1; j < end && source[j]
                        == target[k]; j++, k++);

                if (j == end) {
                    /* Found whole string. */
                    return i - sourceOffset;
                }
                // 如果不完全匹配，因?yàn)橥鈱觙or循環(huán)中有i++，即i+1繼續(xù)匹配
                // 故而該方法本質(zhì)上就是字符串匹配的樸素算法
            }
        }
        return -1;
    }

通過對(duì)代碼片段的注釋和分析可以看出，Java源碼中的String.indexOf(String str); 內(nèi)部所使用的算法其實(shí)就是字符串匹配的樸素算法...

源碼github地址:
StringMatchSample

重要參考:
從頭到尾徹底理解KMP

最后編輯于：2017.12.03 03:54:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,619評(píng)論 6贊 539
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,155評(píng)論 3贊 425
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,635評(píng)論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,539評(píng)論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,255評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,646評(píng)論 1贊 326
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,655評(píng)論 3贊 444
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,838評(píng)論 0贊 289
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,399評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,146評(píng)論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,338評(píng)論 1贊 372
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,893評(píng)論 5贊 363
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,565評(píng)論 3贊 348
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,983評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,257評(píng)論 1贊 292
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,059評(píng)論 3贊 397
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,296評(píng)論 2贊 376

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

KMP字符串模式匹配算法Java實(shí)現(xiàn)

KMP字符串模式匹配算法Java實(shí)現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

KMP字符串模式匹配算法Java實(shí)現(xiàn)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频