KMP是一个字符串匹配算法,他的关键部分就是对模式串进行预处理 ,加快字符串的匹配
KMP 最重要的一点就是 "构造最大后缀长度数组"
KMP 迭代部分异常重要
求next 指针方式有两种
一种是
void GetNext(char* p,int next[]) { int pLen = strlen(p); next[0] = -1; int k = -1; //从 -1 开始是为了避开 p[0] = p[0]这种情况 int j = 0; while (j < pLen - 1) // 这里可以直接循环到 pLen 的,那么 next[pLen] 就正好等于 pLen-1 这个位置后缀的与前缀相等的长度 { //p[k]表示前缀,p[j]表示后缀 if (k == -1 || p[j] == p[k]) { ++k; ++j; next[j] = k; } else { k = next[k]; // } } }
这种写法适合求模式串出线次数
还有第二种写法
//优化过后的next 数组求法 void GetNextval(char* p, int next[]) { int pLen = strlen(p); next[0] = -1; int k = -1; int j = 0; while (j < pLen - 1) { //p[k]表示前缀,p[j]表示后缀 if (k == -1 || p[j] == p[k]) { ++j; ++k; //较之前next数组求法,改动在下面4行 if (p[j] != p[k]) next[j] = k; //之前只有这一行 else //因为不能出现p[j] = p[ next[j ]],所以当出现时需要继续递归,k = next[k] = next[next[k]] next[j] = next[k]; } else { k = next[k]; } } }
这种优化版本不适合求循环节,匹配次数,只适合求是否匹配
然后就是KMP函数
int KmpSearch(char* s, char* p) { int i = 0; int j = 0; int sLen = strlen(s); int pLen = strlen(p); while (i < sLen && j < pLen) { //①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++ if (j == -1 || s[i] == p[j]) { i++; j++; } else { //②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j] //next[j]即为j所对应的next值 j = next[j]; } } if (j == pLen) return i - j; else return -1; }