自然语言处理中语言模型的有限自动机紧凑表示及相关理论探讨
1. 引言
自然语言处理(NLP)中,知识源的规模是一个重要的实际问题。对于旨在对无限制文本进行完整解析的NLP系统,现实的电子词典需要包含数十万个单词的信息。近年来,基于有限状态自动机的完美哈希技术得到发展,能够在不牺牲访问时间的前提下,紧凑地表示大型词典。
例如,Alpino荷兰语宽覆盖语法的词典,从现有的词法资源派生而来,包含近50,000个词干,编译后的词典中有约200,000个完全变形的条目。使用标准的Prolog表示法,该词典占用约27兆字节;而使用基于有限状态自动机的技术,词典大小仅为1.3兆字节,且词法查找时间无明显延迟。
不仅词典,包含单词和/或词义共现统计信息的语言模型通常也需要大量空间。如Collins的统计解析器,使用约180兆字节的内存,加载二元组计数的哈希表需要约8分钟;Foster的解析模型考虑多达35,000,000个特征;还有学习英语前置形容词顺序的模型,包含127,016个不同形容词对的计数。此外,NLP系统不仅需要处理二元组模型,还会考虑三元组和四元组模型。
2. 理论基础
2.1 矩阵子幺半群性质
在代数领域,存在这样一个性质:在$K^{n×n}$中,由有限个矩阵生成的子幺半群是有限的,记为性质B。需要注意的是,有限性意味着满足性质B,但反之不成立,如半环$B(N) ⊕ B.1_N$(从$N$到$B$的函数的子半环,函数几乎处处为0或几乎处处为1)就是反例。
2.2 确定性与Brzozowski定理的逆
研究确定性识别器的存在性,对Brzozowski定理及其逆进行推广,给