最長公共子序列和最長公共子串區別
最長公共子串(Longest CommonSubstring)和最長公共子序列(LongestCommon Subsequence, LCS)的區別:子串(Substring)是串的一個連續的部分,子序列(Subsequence)則是從不改變序列的順序,而從序列中去掉任意的元素而獲得的新序列;更簡略地說,前者(子串)的字符的位置必須連續,后者(子序列LCS)則不必。比如字符串acdfg同akdfc的最長公共子串為df,而他們的最長公共子序列是adf。LCS可以使用動態規劃法解決。下文具體描述。
最長公共子序列
問題描述:一個給定序列的子序列是在該序列中刪去若干元素后得到的序列。確切地說,若給定序列X= { x1, x2,…, xm},則另一序列Z= {z1, z2,…, zk}是X的子序列是指存在一個嚴格遞增的下標序列 {i1, i2,…, ik},使得對于所有j=1,2,…,k有 Xij=Zj。例如,序列Z={B,C,D,B}是序列X={A,B,C,B,D,A,B}的子序列,相應的遞增下標序列為{2,3,5,7}。給定兩個序列X和Y,當另一序列Z既是X的子序列又是Y的子序列時,稱Z是序列X和Y的公共子序列。例如,若X= { A, B, C, B, D, A, B}和Y= {B, D, C, A, B, A},則序列{B,C,A}是X和Y的一個公共子序列,序列{B,C,B,A}也是X和Y的一個公共子序列。而且,后者是X和Y的一個最長公共子序列,因為X和Y沒有長度大于4的公共子序列。給定兩個序列X= {x1, x2, …, xm}和Y= {y1, y2, … , yn},要求找出X和Y的一個最長公共子序列。
問題解析:設X= { A, B, C, B, D, A, B},Y= {B, D, C, A, B, A}。求X,Y的最長公共子序列最容易想到的方法是窮舉法。對X的多有子序列,檢查它是否也是Y的子序列,從而確定它是否為X和Y的公共子序列。由集合的性質知,元素為m的集合共有2^m個不同子序列,因此,窮舉法需要指數級別的運算時間。進一步分解問題特性,最長公共子序列問題實際上具有最優子結構性質。
設序列X={x1,x2,……xm}和Y={y1,y2,……yn}的最長公共子序列為Z={z1,z2,……zk}。則有:
(1)若xm=yn,則zk=xm=yn,且zk-1是Xm-1和Yn-1的最長公共子序列。
(2)若xm!=yn且zk!=xm,則Z是Xm-1和Y的最長公共子序列。
(3)若xm!=yn且zk!=yn,則Z是X和Yn-1的最長公共子序列。
其中,Xm-1={x1,x2……xm-1},Yn-1={y1,y2……yn-1},Zk-1={z1,z2……zk-1}。
遞推關系:用c[i][j]記錄序列Xi和Yj的最長公共子序列的長度。其中,Xi={x1,x2……xi},Yj={y1,y2……yj}。當i=0或j=0時,空序列是xi和yj的最長公共子序列。此時,c[i][j]=0;當i,j>0,xi=yj時,c[i][j]=c[i-1][j-1]+1;當i,j>0,xi!=yj時,
c[i][j]=max{c[i][j-1],c[i-1][j]},由此建立遞推關系如下:
構造最優解:由以上分析可知,要找出X={x1,x2,……xm}和Y={y1,y2,……yn}的最長公共子序列,可以按一下方式遞歸進行:當xm=yn時,找出xm-1和yn-1的最長公共子序列,然后在尾部加上xm(=yn)即可得X和Y的最長公共子序列。當Xm!=Yn時,必須解兩個子問題,即找出Xm-1和Y的一個最長公共子序列及X和Yn-1的一個最長公共子序列。這兩個公共子序列中較長者為X和Y的最長公共子序列。設數組b[i][j]記錄c[i][j]的值由哪一個子問題的解得到的,從b[m][n]開始,依其值在數組b中搜索,當b[i][j]=1時,表示Xi和Yj的最長公共子序列是由Xi-1和Yj-1的最長公共子序列在尾部加上xi所得到的子序列。當b[i][j]=2時,表示Xi和Yj的最長公共子序列與Xi-1和Yj-1的最長公共子序列相同。當b[i][j]=3時,表示Xi和Yj的最長公共子序列與Xi和Yj-1的最長公共子序列相同。
最長公共子串
求字串的方法和求子序列方法類似:
當str1[i] == str2[j]時,子序列長度veca[i][j] = veca[i - 1][j - 1] + 1;只是當str1[i] != str2[j]時,veca[i][j]長度要為0,而不是max{veca[i - 1][j], veca[i][j - 1]}。