详解KMP算法
next数组是一个存储了模式串每个位置的最长相等的后缀和前缀长度的数组。
这个数组可以帮助我们在匹配过程中跳过一些不必要的比较。
两个指针 i 和 j ,分别指向主串和模式串的第一个字符。接下来:
如果 i 和 j 指向的字符相等,则说明当前位置匹配成功,那么就让 i 和 j 都后移一位,并继续比较下一位;
如果 i 和 j 指向的字符不相等,则说明当前位置匹配失败,那么就需要根据 next数组 来调整 j 的位置。具体来说,就是让 j=next[j] (如果 j 已经为 -1 ,则让 j=0 ),这样就可以跳过一些已经匹配过或者肯定不匹配的位置。
如果 j 已经超出了模式串的长度,则说明匹配成功,那么就返回 i - j 作为匹配位置。这是因为当 j 超出了模式串长度时,表示已经有 n 个字符连续匹配成功(n 是模式串长度),所以匹配位置就是 i-n = i-j。
如果 i 已经超出了主串的长度,则说明匹配失败,那么就返回 -1 作为匹配位置。
【举例】假设模式串p是"ABABAC",并求它的next数组。
i | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
p[i] | A | B | A | B | A | C |
j | 0 | 0 | 1 | 2 | 3 |
- 初始时,i = 2,j = 0。我们比较p[i]和p[j + 1]是否相等:
- 不相等,所以next[2] = j = 0。然后 i++ 变为3。
- i = 3,j = 0。比较p[i]和p[j + 1]是否相等:
- 相等,所以j加一,变为1,并把j赋值给next[3],即next[3] = j = 1。然后 i++ 变为4。
- i = 4,j = 1。比较p[i]和p[j + 1]是否相等:
- 相等,所以j加一,变为2,并把j赋值给next[4],即next[4] = j = 2。然后 i++ 变为5。
- i = 5,j = 2。比较p[i]和p[j + 1]是否相等:
- 相等,所以j加一,变为3,并把j赋值给next[5],即next[5] = j = 3。然后 i++ 变为6。
- i = 6,j = 3。比较p[i]和p[j + 1]是否相等:
- 不相等,所以回退 j 到上一个匹配位置 next[j] ,即j = next[3] = 1. 然后重复比较p[i]和p[j+1]是否相等:
- 不相等,所以回退 j 到上一个匹配位置 next[j] ,即j = next[1] = 0. 然后重复比较p[i]和p[j + 1]是否相等:
- 不相等,所以next[6] = j = 0. 这时 i 已经超过模式串长度,所以结束循环。
最终得到的next数组是 [0, 0, 1, 2, 3, 0]。
#include <iostream>
using namespace std;
const int N = 1e5 + 10, M = 1e6 + 10;
int n, m;
char s[M]; //主串
char p[N]; //模式串
int ne[N]; //模式串的next数组
// 求next数组
void getNext()
{
/* ne[1] 一定为0 所以i从2开始 */
for(int i = 2, j = 0; i <= n; i++)
{
while(j && p[i] != p[j + 1]) j = ne[j];
if(p[i] == p[j + 1]) j++;
ne[i] = j;
}
}
int main()
{
/* cin >> p + 1表示从字符数组下标为1的位置开始读入字符串 */
cin >> n >> p + 1 >> m >> s + 1;
getNext();
for(int i = 1, j = 0; i <= m; i++)
{
while(j && s[i] != p[j + 1]) j = ne[j];
if(s[i] == p[j + 1]) j++;
if(j == n)
{
cout << i - n;
j = ne[j];
}
}
return 0;
}