字符串KMP算法理解
参考
参考博客:
https://www.zhihu.com/question/21923021
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
http://jakeboxer.com/blog/2009/12/13/the-knuth-morris-pratt-algorithm-in-my-own-words/
思路
给定一个文本串txt , 待匹配模式串pat,使用暴力的方法进行匹配会发现重复比较的次数很多,导致时间复杂度很高,进行了重复无用的比较,每次匹配失败我们能够获得的信息为:主串的某一个子串等于模式串的某一个前缀;
KMP算法利用该条件,跳过不必要的重复比较,算法的关键理解是Partial Match Table(部分匹配表的计算),这里需要理解模式串的前缀和后缀是什么意思
PMT(部分匹配表)的值是字符串的前缀集合与后缀集合的交集中最长元素的长度;next数组是将PMT表扩充1个元素,方便编程计算得来的:next(i) = PMT(i-1) , next(0) = -1(该处值无意义)
KMP算法从头开始遍历主串,当模式串的第j个位置元素不匹配时,此时模式串的前(j-1)个元素是匹配的,读取PMT[j-1]处的值为n,可以获得该前缀匹配的模式串的后缀长度是n,主串这里匹配的子串长度是j-1个,与模式串的前j-1个相同,所以从此时主串的子串后缀开始数n个与模式串的开头n个是一样的,可以跳到这里进行比较,从而减少了重复比较的次数,图示说明:
主: BBC ABCDAB ABCDABCDABDE
模: ABCDABD
j = 7 , 主串的子串ABCDAB (6个)与模式串的前6个元素相同 , PMT部分匹配值为PMT[6] = 2,
所以移动长度: 6 - 2 = 4 (字符串长度 - 部分匹配值),即下一次直接向后移动4个位;
移动位数 = 已匹配的字符数 - 对应的部分匹配值
KMP算法的关键进而变为PMT表的计算:next数组可以看做是字符串匹配的过程,以模式字符串为主字符串,以模式字符串的前缀为目标字符串,一旦字符串匹配成功,那么当前的next值就是匹配成功的字符串的长度,具体来说,就是从模式字符串的第一位(注意,不是第0位)开始对自身进行匹配运算,在任一位置,能匹配的最长长度就是当前位置的next值;
力扣28题:
class Solution {
public int strStr(String haystack, String needle) {
if(needle.length() == 0)
return 0;
if(haystack.length() == 0 || haystack.length() < needle.length())
return -1;
int halen = haystack.length() , nelen = needle.length();
return kmp(haystack , needle , halen , nelen);
}
private int kmp(String haystack , String needle , int halen , int nelen)
{
//计算next数组
int[] next = next(needle , nelen);
int j = 0;
for(int i = 0; i < halen; i++)
{
//发现不匹配的字符,根据next数组移动指针,移动到最大公共前后缀
while(j > 0 && haystack.charAt(i) != needle.charAt(j))
{
j = next[j-1] + 1;
//超出长度时,返回不存在
if(nelen - j + i > halen)
return -1;
}
if(haystack.charAt(i) == needle.charAt(j))
j++;
//遍历完整个模式串,返回模式串起点下标
if(j == nelen)
return i - nelen + 1;
}
return -1;
}
private int[] next(String needle, int len)
{
//定义next数组
int[] next = new int[len];
//初始化
next[0] = -1;
int k = -1;
for(int i = 1; i < len; i++)
{
//当k+1指向的值和i不相同时,需要进行回溯
while(k != -1 && needle.charAt(k+1) != needle.charAt(i))
k = next[k];
if(needle.charAt(k+1) == needle.charAt(i))
++k;
next[i] = k;
}
return next;
}
}