8、自然语言处理中语言模型的有限自动机紧凑表示及相关理论探讨

自然语言处理中语言模型的有限自动机紧凑表示及相关理论探讨

1. 引言

自然语言处理(NLP)中,知识源的规模是一个重要的实际问题。对于旨在对无限制文本进行完整解析的NLP系统,现实的电子词典需要包含数十万个单词的信息。近年来,基于有限状态自动机的完美哈希技术得到发展,能够在不牺牲访问时间的前提下,紧凑地表示大型词典。

例如,Alpino荷兰语宽覆盖语法的词典,从现有的词法资源派生而来,包含近50,000个词干,编译后的词典中有约200,000个完全变形的条目。使用标准的Prolog表示法,该词典占用约27兆字节;而使用基于有限状态自动机的技术,词典大小仅为1.3兆字节,且词法查找时间无明显延迟。

不仅词典,包含单词和/或词义共现统计信息的语言模型通常也需要大量空间。如Collins的统计解析器,使用约180兆字节的内存,加载二元组计数的哈希表需要约8分钟;Foster的解析模型考虑多达35,000,000个特征;还有学习英语前置形容词顺序的模型,包含127,016个不同形容词对的计数。此外,NLP系统不仅需要处理二元组模型,还会考虑三元组和四元组模型。

2. 理论基础
2.1 矩阵子幺半群性质

在代数领域,存在这样一个性质:在$K^{n×n}$中,由有限个矩阵生成的子幺半群是有限的,记为性质B。需要注意的是,有限性意味着满足性质B,但反之不成立,如半环$B(N) ⊕ B.1_N$(从$N$到$B$的函数的子半环,函数几乎处处为0或几乎处处为1)就是反例。

2.2 确定性与Brzozowski定理的逆

研究确定性识别器的存在性,对Brzozowski定理及其逆进行推广,给

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值