KMP算法

def get_next_list(s):
    next_list = [0]*len(s)
    for i in range(len(s)):
        if i == 0:
            next_list[i] = 0
        else:
            for k in range(0, i):
                if s[0: k] == s[i - k: i]:
                    next_list[i] = max(next_list[i], k+1)

            if next_list[i] == 0:
                next_list[i] = 1

    return next_list


# str_list = ['abcdex', 'abcabx', 'ababaaaba', 'aaaaaaaab']
# for src_str in str_list:
#     print(get_next_list(src_str))

# 1. 朴素模式匹配算法
def index_sub_list(src_str, target_str):
    i, j = 0, 0
    while i < len(src_str) and j < len(target_str):
        if src_str[i] == target_str[j] :
            i +=1
            j +=1
        else:
            i = i - j + 1
            j = 0

    if j >= len(target_str):
        return i - len(target_str)
    else:
        return -1


# 2. kmp匹配算法
def kmp_index_sub_list(src_str, target_str):
    i, j = 0, 0
    target_next = get_next_list(target_str)
    while i < len(src_str) and j < len(target_str):
        if src_str[i] == target_str[j]:
            i += 1
            j += 1
        elif j!=0:
            j = target_next[j-1]
        else:
            i += 1

    if j >= len(target_str):
        return i - len(target_str)
    else:
        return -1

 

### KMP算法的实现 KMP算法是一种高效的字符串匹配算法,它通过构建部分匹配表(也称为`next`数组)来减少不必要的回溯操作[^2]。以下是基于Python语言的KMP算法实现: ```python def compute_next_array(pattern): next_arr = [-1] * len(pattern) i, j = 0, -1 while i < len(pattern) - 1: if j == -1 or pattern[i] == pattern[j]: i += 1 j += 1 next_arr[i] = j else: j = next_arr[j] return next_arr def kmp_search(text, pattern): m, n = len(text), len(pattern) next_arr = compute_next_array(pattern) i, j = 0, 0 while i < m and j < n: if j == -1 or text[i] == pattern[j]: i += 1 j += 1 else: j = next_arr[j] if j == n: return i - j # 返回匹配起始位置 return -1 # 表示未找到匹配项 ``` 上述代码分为两部分: - `compute_next_array()` 函数用于计算模式串的部分匹配表(即`next`数组)。这部分的核心在于利用已知的最大公共前后缀长度来优化后续匹配过程[^5]。 - `kmp_search()` 函数则负责执行具体的字符串匹配逻辑。 --- ### KMP算法的应用场景 #### 文本编辑器中的查找功能 在文本编辑器中,当用户输入一段文字并希望快速定位某个关键词时,可以采用KMP算法完成这一任务。相比传统的暴力匹配方法,KMP能够在更短的时间内返回结果,尤其适用于大规模文档环境下的搜索需求[^1]。 #### 数据清洗与预处理 在大数据领域,经常需要对海量日志文件或其他形式的数据集进行过滤或提取特定字段的操作。此时如果目标子串固定不变,则可预先生成对应的`next`数组,在多次查询过程中显著提升效率[^3]。 #### 生物信息学研究 DNA序列由四种碱基组成(A,T,C,G),因此对于某些基因片段的研究工作而言,频繁涉及相似结构单元之间的对比分析。借助于KMP技术,研究人员能够更加便捷地识别出感兴趣的区域及其分布规律[^4]。 --- ### 性能优势总结 总体来看,由于引入了额外的信息存储机制——即所谓的“失败指针”,使得整个流程无需反复跳转至初始状态重新尝试;从而大幅降低了最坏情况下的时间开销,并保持相对稳定的内存占用水平[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值