幾種文字匹配算法

最近 Android 做了一個全文關(guān)鍵字高亮的功能，直接用了
Java 現(xiàn)成的 API 解決了，在查閱資料的過程中得知還有幾種匹配算法：BF、RK、KMP、BM、Sunday，有空就做了一些了解。這里記錄一下防止忘記，阮一峰大神關(guān)于這些算法的博客寫的很好。

BF

暴力檢索，這種方法最容易想到，也是最容易實現(xiàn)的，從首字母開始挨個的將關(guān)鍵字和做比對。用下面的圖片就能只管的說明（圖片來自阮一峰大神的博客）

代碼實現(xiàn)：

package other.string.textmatch;

/**
 * 暴力檢索
 */
public class BFMatch {

    /**
     * 暴力檢索，輸出匹配到的關(guān)鍵字的起始索引（包括起始索引在內(nèi)，因為有的是不包括結(jié)尾下標(biāo)在內(nèi)，所以這里說明一下）
     *
     * @param originText 原始文字
     * @param keyword    要匹配的關(guān)鍵字
     */
    public static void BFMatch(String originText, String keyword) {
        char originChar;
        for (int i = 0; i < originText.length(); i++) {
            for (int j = 0; j < keyword.length(); j++) {
                if (i + j >= originText.length()) break;
                originChar = originText.charAt(i + j);

                if (originChar != keyword.charAt(j)) {
                    break;
                }

                if (j == keyword.length() - 1) {
                    System.out.println("找到匹配字符串，起始：" + i +
                            " 終止：" + (i + keyword.length() - 1));
                }
            }
        }
    }

    public static void main(String... args) {
        BFMatch("asdfj9iwhefpnehbnfhodhsvb", "j9");
    }
}

輸出：
找到匹配字符串，起始：4 終止：5

RK

RK 算法是對 BF 算法的一個改進，看了我上面對 BF 的實現(xiàn)不難發(fā)現(xiàn)，每次匹配都需要比對每一個字符是否一致，是否有更加有效率的方法呢？有的，RK 對于 BF 的改進就在于嘗試進行一次比較來判斷兩者是否相等。RK 算法首先計算子串的哈希值，然后在原字符串中取出同樣長度的字符串計算哈希值，如果二者的哈希值不等那么他們一定不同。如果哈希值相同，由于哈希沖突的存在，也需要再次比對一下是否相同。一般情況下我們需要匹配的文本含有的關(guān)鍵字占全文的數(shù)量應(yīng)該不是很高，所以這種高效率去除不同的情況效率是高于 BF 的。看一下實現(xiàn)：

package other.string.textmatch;

public class RKMatch {

    /**
     * 暴力檢索的改進，輸出匹配到的關(guān)鍵字的起始索引（包括起始索引在內(nèi)，因為有的是不包括結(jié)尾下標(biāo)在內(nèi)，所以這里說明一下）
     *
     * @param originText 原始文字
     * @param keyword    要匹配的關(guān)鍵字
     */
    public static void RKMatch(String originText, String keyword) {
        int keyHash = keyword.hashCode();
        int keyLength = keyword.length();

        String subString;
        for (int i = 0; i < originText.length(); i++) {
            if (keyLength + i >= originText.length()) break;

            subString = originText.substring(i, i + keyLength);
            if (subString.hashCode() == keyHash) {
                for (int j = 0; j < keyLength; j++) {
                    if (subString.charAt(j) != keyword.charAt(j)) break;

                    if (j == keyLength - 1) {
                        System.out.println("找到匹配字符串，起始：" + i +
                                " 終止：" + (i + keyword.length() - 1));
                    }
                }
            }
        }
    }

    public static void main(String... args) {
        RKMatch("asdfj9iwhefpnehbnfhodhsvb", "j9");
    }
}

輸出：
找到匹配字符串，起始：4 終止：5

KMP

哇，真是大學(xué)時的噩夢啊（笑），字符串匹配的最經(jīng)典算法之一，曾被票選為當(dāng)今世界最偉大的十大算法之一。恩，先回到正題吧，不閑扯了，KMP 算法我看了一下，覺得比較難的部分就是部分匹配值的計算了。BF 和 RK 在匹配不上時都是順序向后移動一位繼續(xù)匹配，而 KMP 不是，是按照計算的部分匹配值來向后移動。這里不具體解釋原理，直說按照怎樣的步驟去實現(xiàn)計算部分匹配值：

“部分匹配值”是指字符串前綴和后綴所共有元素的長度。前綴是指除最后一個字符外，一個字符串全部頭部組合；后綴是指除第一個字符外，一個字符串全部尾部組合。以”ABCDABD”為例：
“AB”的前綴為[A]，后綴為[B]，共有元素的長度為0；
“ABC”的前綴為[A, AB]，后綴為[BC, C]，共有元素的長度0；
“ABCD”的前綴為[A, AB, ABC]，后綴為[BCD, CD, D]，共有元素的長度為0；
“ABCDA”的前綴為[A, AB, ABC, ABCD]，后綴為[BCDA, CDA, DA, A]，共有元素為”A”，長度為1；
“ABCDAB”的前綴為[A, AB, ABC, ABCD, ABCDA]，后綴為[BCDAB, CDAB, DAB, AB, B]，共有元素為”AB”，長度為2；
“ABCDABD”的前綴為[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后綴為[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度為0。

代碼實現(xiàn)：

    /**
     * 計算部分匹配值
     */
    public static int[] calcPartMatch(String keyword) {
        int[] partMatchVal = new int[keyword.length()];

        for (int i = 0; i < keyword.length(); i++) {
            if (i == 0) {
                partMatchVal[0] = 0;
                continue;
            }
            String subKey = keyword.substring(0, i + 1);
            // 求前綴
            list1.clear();
            for (int j = 1; j < subKey.length(); j++) {
                list1.add(subKey.substring(0, j));
            }

            // 求后綴
            list2.clear();
            for (int j = 1; j < subKey.length(); j++) {
                list2.add(subKey.substring(j, subKey.length()));
            }

            System.out.println("\ni = " + i);

            for (String s : list1) {
                System.out.println("前綴：" + s);
            }

            for (String s : list2) {
                System.out.println("后綴：" + s);
            }

            // 求交集
            list1.retainAll(list2);
           int length = 0;
            for (String str : list1) {
                if (str.length() > length) length = str.length();
            }
//            if (list1.size() == 0) partMatchVal[i] = 0;
//            else {
//                partMatchVal[i] = list1.size();
//            }
            partMatchVal[i] = length;

            System.out.println("\n長度為：" + partMatchVal[i]);
        }

        return partMatchVal;
    }

輸入 ada ，輸出：

i = 1
前綴：a
后綴：d

長度為：0

i = 2
前綴：a
前綴：ad
后綴：da
后綴：a

長度為：1

計算得出的部分匹配值就是0、0、1

KMP算法實現(xiàn)：

    /**
     * 流程比較復(fù)雜，注釋里比較難寫清，具體可見
     * http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
     * <p>
     * 具體的操作流程就是：
     * 1.計算 keyword 的部分匹配值
     * 2.進行匹配操作，碰到部分匹配成功，下一次 起始點索引 = 原位置 + 已匹配的字符數(shù) - 對應(yīng)的部分匹配值
     */
    public static void kmpMatch(String originText, String keyword) {
        // 部分匹配值
        int[] partMatch = calcPartMatch(keyword);

        for (int i = 0; i < originText.length(); ) {
            char c;
            // 匹配字符數(shù)
            int count = 0;
            for (int j = 0; j < keyword.length(); j++) {
                if (i + j >= originText.length()) break;
                c = originText.charAt(i + j);
                if (c != keyword.charAt(j)) {
                    break;
                }
                count++;
                if (j == keyword.length() - 1) {
                    System.out.println("找到匹配字符串，起始：" + i +
                            " 終止：" + (i + keyword.length() - 1));
                }
            }
            if (count == 0) {
                i++;
            } else {
                i += count - partMatch[count - 1];
            }
            if (i > originText.length()) break;
        }
    }

輸入：kmpMatch("asdfasdfasdfasdfadae4rqerfasdfv", "ada");
輸出：找到匹配字符串，起始：16 終止：18

這里還有 BM 和 Sunday 沒有實現(xiàn)。

最后編輯于：2019.01.02 21:55:28

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,106評論 6贊 542
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,441評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,211評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,736評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 72,475評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,834評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,829評論 3贊 446
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,009評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,559評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 41,306評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,516評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,038評論 5贊 363
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,728評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,132評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,443評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,249評論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 48,484評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

幾種文字匹配算法

幾種文字匹配算法

BF

RK

KMP

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

幾種文字匹配算法

BF

RK

KMP

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频