KMP字符串模式匹配算法Java實(shí)現(xiàn)

版權(quán)聲明:本文源自簡(jiǎn)書tianma,轉(zhuǎn)載請(qǐng)務(wù)必注明出處: http://www.lxweimin.com/p/e2bd1ee482c3

本文靈感來(lái)自于July的博客從頭到尾徹底理解KMP,并著重于Java實(shí)現(xiàn) :)。 現(xiàn)有字符串匹配算法有不少,如簡(jiǎn)單暴力的樸素算法(暴力匹配算法)、KMP算法、BM算法以及Sunday算法等,在這里僅介紹前兩種算法。

1. 樸素算法
樸素算法即暴力匹配算法,對(duì)于長(zhǎng)度為n的文本串S和長(zhǎng)度為m模式串P,在文本串S中是否存在一個(gè)有效偏移i,其中 0≤ i < n - m + 1,使得 S[i... i+m - 1] = P[0 ... m-1](注:下標(biāo)從0開始),如果存在則匹配成功,否則匹配失敗。由于在匹配過程中一旦不匹配,就要讓模式串P相對(duì)于文本串S右移1,即i需要進(jìn)行回溯,其時(shí)間復(fù)雜度為O(n*m)。
Java實(shí)現(xiàn):

    // 定義接口
    interface StringMatcher {
        /**
         * 從原字符串中查找模式字符串的位置,如果模式字符串存在,則返回模式字符串第一次出現(xiàn)的位置,否則返回-1
         * 
         * @param source
         *            原字符串
         * @param pattern
         *            模式字符串
         * @return if substring exists, return the first occurrence of pattern
         *         substring, return -1 if not.
         */
        int indexOf(String source, String pattern);
    }
    /**
     * 暴力匹配
     * <p>
     * 時(shí)間復(fù)雜度: O(m*n), m = pattern.length, n = source.length
     */
    class ViolentStringMatcher implements StringMatcher {

        @Override
        public int indexOf(String source, String pattern) {
            int i = 0, j = 0;
            int sLen = source.length(), pLen = pattern.length();
            char[] src = source.toCharArray();
            char[] ptn = pattern.toCharArray();
            while (i < sLen && j < pLen) {
                if (src[i] == ptn[j]) {
                    // 如果當(dāng)前字符匹配成功,則將兩者各自增1,繼續(xù)比較后面的字符
                    i++;
                    j++;
                } else {
                    // 如果當(dāng)前字符匹配不成功,則i回溯到此次匹配最開始的位置+1處,也就是i = i - j + 1
                    // (因?yàn)閕,j是同步增長(zhǎng)的), j = 0;
                    i = i - j + 1;
                    j = 0;
                }
            }
            // 匹配成功,則返回模式字符串在原字符串中首次出現(xiàn)的位置;否則返回-1
            if (j == pLen)
                return i - j;
            else
                return -1;
        }
    }

2. KMP算法
與樸素算法不同,樸素算法是當(dāng)遇到不匹配字符時(shí),向后移動(dòng)一位繼續(xù)匹配,而KMP算法是當(dāng)遇到不匹配字符時(shí),不是簡(jiǎn)單的向后移一位字符,而是根據(jù)前面已匹配的字符數(shù)和模式串前綴和后綴的最大相同字符串長(zhǎng)度數(shù)組next的元素來(lái)確定向后移動(dòng)的位數(shù),所以KMP算法的時(shí)間復(fù)雜度比樸素算法的要少,并且是線性時(shí)間復(fù)雜度,即預(yù)處理時(shí)間復(fù)雜度是O(m),匹配時(shí)間復(fù)雜度是O(n)。

next數(shù)組含義:代表在模式串P中,當(dāng)前下標(biāo)對(duì)應(yīng)的字符之前的字符串中,有多大長(zhǎng)度的相同前綴后綴。例如如果next [j] = k,代表在模式串P中,下標(biāo)為j的字符之前的字符串中有最大長(zhǎng)度為k 的相同前綴后綴。

KMP算法的核心就是求next數(shù)組,在字符串匹配的過程中,一旦某個(gè)字符匹配不成功,next數(shù)組就會(huì)指導(dǎo)模式串P到底該相對(duì)于S右移多少位再進(jìn)行下一次匹配,從而避免無(wú)效的匹配。

next數(shù)組求解方法:

  • next[0] = -1。
  • 如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
    1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
    2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止

詳細(xì)的介紹及分析還請(qǐng)移步從頭到尾徹底理解KMP,在下語(yǔ)拙 :(
Java實(shí)現(xiàn):

    /**
     * KMP模式匹配
     * @author Tianma
     *
     */
    class KMPStringMatcher implements StringMatcher {

        /**
         * 獲取KMP算法中pattern字符串對(duì)應(yīng)的next數(shù)組
         * 
         * @param p
         *            模式字符串對(duì)應(yīng)的字符數(shù)組
         * @return
         */
        protected int[] getNext(char[] p) {
            // 已知next[j] = k,利用遞歸的思想求出next[j+1]的值
            // 如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
            // 1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
            // 2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,
            // 如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止
            int pLen = p.length;
            int[] next = new int[pLen];
            int k = -1;
            int j = 0;
            next[0] = -1; // next數(shù)組中next[0]為-1
            while (j < pLen - 1) {
                if (k == -1 || p[j] == p[k]) {
                    k++;
                    j++;
                    next[j] = k;
                } else {
                    k = next[k];
                }
            }
            return next;
        }

        @Override
        public int indexOf(String source, String pattern) {
            int i = 0, j = 0;
            char[] src = source.toCharArray();
            char[] ptn = pattern.toCharArray();
            int sLen = src.length;
            int pLen = ptn.length;
            int[] next = getNext(ptn);
            while (i < sLen && j < pLen) {
                // 如果j = -1,或者當(dāng)前字符匹配成功(src[i] = ptn[j]),都讓i++,j++
                if (j == -1 || src[i] == ptn[j]) {
                    i++;
                    j++;
                } else {
                    // 如果j!=-1且當(dāng)前字符匹配失敗,則令i不變,j=next[j],即讓pattern模式串右移j-next[j]個(gè)單位
                    j = next[j];
                }
            }
            if (j == pLen)
                return i - j;
            return -1;
        }
    }

3. 優(yōu)化的KMP算法(改進(jìn)next數(shù)組)
具體過程移步從頭到尾徹底理解KMP3.3.8 Next 數(shù)組的優(yōu)化
在這里給出Java實(shí)現(xiàn):

    /**
     * 優(yōu)化的KMP算法(對(duì)next數(shù)組的獲取進(jìn)行優(yōu)化)
     * 
     * @author Tianma
     *
     */
    class OptimizedKMPStringMatcher extends KMPStringMatcher {

        @Override
        protected int[] getNext(char[] p) {
            // 已知next[j] = k,利用遞歸的思想求出next[j+1]的值
            // 如果已知next[j] = k,如何求出next[j+1]呢?具體算法如下:
            // 1. 如果p[j] = p[k], 則next[j+1] = next[k] + 1;
            // 2. 如果p[j] != p[k], 則令k=next[k],如果此時(shí)p[j]==p[k],則next[j+1]=k+1,
            // 如果不相等,則繼續(xù)遞歸前綴索引,令 k=next[k],繼續(xù)判斷,直至k=-1(即k=next[0])或者p[j]=p[k]為止
            int pLen = p.length;
            int[] next = new int[pLen];
            int k = -1;
            int j = 0;
            next[0] = -1; // next數(shù)組中next[0]為-1
            while (j < pLen - 1) {
                if (k == -1 || p[j] == p[k]) {
                    k++;
                    j++;
                    // 修改next數(shù)組求法
                    if (p[j] != p[k]) {
                        next[j] = k;// KMPStringMatcher中只有這一行
                    } else {
                        // 不能出現(xiàn)p[j] = p[next[j]],所以如果出現(xiàn)這種情況則繼續(xù)遞歸,如 k = next[k],
                        // k = next[[next[k]]
                        next[j] = next[k];
                    }
                } else {
                    k = next[k];
                }
            }
            return next;
        }

    }

4. 花絮
提到字符串匹配,或者說(shuō)字符串查找,我們會(huì)想到Java中的String類就有一個(gè)String.indexOf(String str);方法,那它使用的是什么算法呢?在這里截取JavaSE-1.8的源碼:

    // String.indexOf(String str); 最終會(huì)調(diào)用該方法
    /**
     * Code shared by String and StringBuffer to do searches. The
     * source is the character array being searched, and the target
     * is the string being searched for.
     *
     * @param   source       the characters being searched.(源字符數(shù)組)
     * @param   sourceOffset offset of the source string.(源字符數(shù)組偏移量)
     * @param   sourceCount  count of the source string.(源字符數(shù)組長(zhǎng)度)
     * @param   target       the characters being searched for.(待搜索的模式字符數(shù)組)
     * @param   targetOffset offset of the target string.(模式字符數(shù)組偏移量)
     * @param   targetCount  count of the target string.(模式數(shù)組長(zhǎng)度)
     * @param   fromIndex    the index to begin searching from.(從原字符數(shù)組的哪個(gè)下標(biāo)開始查詢)
     */
    static int indexOf(char[] source, int sourceOffset, int sourceCount,
            char[] target, int targetOffset, int targetCount,
            int fromIndex) {
        if (fromIndex >= sourceCount) {
            return (targetCount == 0 ? sourceCount : -1);
        }
        if (fromIndex < 0) {
            fromIndex = 0;
        }
        if (targetCount == 0) {
            return fromIndex;
        }

        char first = target[targetOffset];
        int max = sourceOffset + (sourceCount - targetCount);

        for (int i = sourceOffset + fromIndex; i <= max; i++) {
            /* Look for first character. */
            // 找到第一個(gè)匹配的字符的位置
            if (source[i] != first) {
                while (++i <= max && source[i] != first);
            }

            /* Found first character, now look at the rest of v2 *
            if (i <= max) {
                // 找到了第一個(gè)匹配的字符,看余下的是否完全匹配
                int j = i + 1;
                int end = j + targetCount - 1;
                for (int k = targetOffset + 1; j < end && source[j]
                        == target[k]; j++, k++);

                if (j == end) {
                    /* Found whole string. */
                    return i - sourceOffset;
                }
                // 如果不完全匹配,因?yàn)橥鈱觙or循環(huán)中有i++,即i+1繼續(xù)匹配
                // 故而該方法本質(zhì)上就是字符串匹配的樸素算法
            }
        }
        return -1;
    }

通過對(duì)代碼片段的注釋和分析可以看出,Java源碼中的String.indexOf(String str); 內(nèi)部所使用的算法其實(shí)就是字符串匹配的樸素算法...

源碼github地址:
StringMatchSample

重要參考:
從頭到尾徹底理解KMP

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,619評(píng)論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,155評(píng)論 3 425
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,635評(píng)論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,539評(píng)論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,255評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,646評(píng)論 1 326
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,655評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,838評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,399評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,146評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,338評(píng)論 1 372
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,893評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,565評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,983評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,257評(píng)論 1 292
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,059評(píng)論 3 397
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,296評(píng)論 2 376

推薦閱讀更多精彩內(nèi)容