這篇文章是我在做一道有關字符串的算法題時候想把這個過程記錄下來,加深一下印象。
先上原題:
編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。
例如將kitten一字轉成sitting:
sitten (k->s)
sittin (e->i)
sitting (->g)
所以kitten和sitting的編輯距離是3。俄羅斯科學家Vladimir Levenshtein在1965年提出這個概念。
給出兩個字符串a,b,求a和b的編輯距離。
Input
第1行:字符串a(a的長度 <= 1000)。
第2行:字符串b(b的長度 <= 1000)。
Output
輸出a和b的編輯距離
Input示例
kitten
sitting
Output示例
3
這道題其實很經典,是利用了上面那個科學家發現的經典算法。第一次遇見,主要是想訓練一下字符串相關的題目,然后這道題是涉及使用動態規劃的一道經典題目
這道題的思路比較簡單,但是對于初學動態規劃和算法的我來說,確實不好想。
思路:
先將兩個字符串都在開頭加上一個空格,為了后面動態規劃處理時,在第一個字符也能有前面的結果作為基礎。比如要是不加空格,那么開頭的第一個字符就沒法向前尋找結果。
規定:
dp[i][j]為處理字符串a前i個字符編輯成字符串b前j個字符所需要的距離。也就是操作次數
如果當s1[i]==s2[j] 那么dp[i][j]=dp[i-1][j-1]
因為你想,第i個字符和j字符相同,那么此時是不需要進行任何操作的,也就和dp[i-1][j-1]相等了。
如果當前i和j位置不同 那么dp[i][j]有三個狀態轉移方式:
dp[i-1][j]+1 在a串的i位置刪除a[i] (或者在b串的i位置加上a[i])
dp[i][j-1]+1 在b串的j位置刪除b[j] (或者在a串的j位置加上b[j])
dp[i-1][j-1]+1 在a串的i位置改a[i]變成b[j]或者在b串的j位置改b[j]為a[i]
當時的我看到這些東西的時候也是很懵逼的,第一次對我這種菜鳥來說確實不好理解。
下面我上圖來說明一下情況,幫助理解這些狀態變化的理由
- 第一種情況 s1[i]==s2[j]
因為此時這兩個位置相同 那么dp[i][j]的意思 是字符串a從0-i和字符串b從0到j所需要的編輯操作次數,那么就會等于dp[i-1][j-1]因為i和j相等無需操作。
- 第二種情況 s1[i]!=s2[j]
狀態轉移1: dp[i-1][j]+1
首先我們看左邊部分dp[i-1][j]在圖中代表的就是橙色部分,也就是編輯成橙色部分需要的操作次數,那么我們現在在這個圖的基礎上如何變成dp[i][j]呢,我可以在b串的橙色部分基礎上,在i位置插入a串的i位置的字符。就變成 了右圖的形式。此時也就形成了dp[i][j](至于那么刪除a串i位置是怎么解釋,我一時間想不明白。還請讀者幫忙解惑評論一下,我再把文章更新。非常感謝!)
狀態轉移2: dp[i][j-1]+1
原理同上,就是調換一下兩個串即可。
狀態轉移3: dp[i-1][j-1]+1
首先我們看圖的左半部分,橙色表示dp[i-1][j-1]。那么我們如何去改變去dp[i][j]呢,因為這種情況的前提條件是i位置和j位置的字符不相同。那么我們只需要替換字符即可,把i位置的字符替換成j位置的或者反過來都是一樣的。變成右邊部分。綠色的字符就是我們調整后的字符。然后就形成了dp[i][j]了。
代碼C++實現:
#include <iostream>
#include <string>
using namespace std;
const int N=1000;
int dp[N+1][N+1];
int min(int a,int b)
{
return a>b?b:a;
}
/*
狀態轉移:
若a串第i個與b串第j個相等,那么dp[i][j]=dp[i-1][j-1]
否則,dp[i][j]可由3個狀態轉移而來:
①dp[i-1][j-1]+1 把a[i]改為b[j] 等價于把b[j]改為a[i]
②dp[i-1][j]+1 刪去a[i] 等價于在b[j]前插入a[i]
③dp[i][j-1]+1 刪去b[j],等價于在a[i]前插入b[j]
初始化:dp[0][i]=i dp[i][0]=i
*/
int main()
{
string s1;
string s2;
cin>>s1>>s2;
s1=" "+s1;//前面補充一個空格
s2=" "+s2;//前面補充一個空格
int i,j;
int len1,len2;
len1=s1.size();
len2=s2.size();//dp[i][j] 代表 s1前i個字符和s2前j個字符的編輯距離
for(i=1;i<len1;i++)
{
dp[0][i]=i;
}
for(i=1;i<len2;i++)
{
dp[i][0]=i;
}
for(i=1;i<=len1;i++)
{
for(j=1;j<=len2;j++)
{
if(s1[i]==s2[j])
{
dp[i][j]=dp[i-1][j-1];
}
else
{
dp[i][j]=min(min(dp[i-1][j],dp[i][j-1]),dp[i-1][j-1])+1;
}
}
}
cout<<dp[len1][len2]<<endl;
return 0;
}