自然语言处理 - 总述

概念

自然语言是我们思想情感最基本、直接、方便的表达工具。作为信息的一种载体,它充斥着我们的生活。

语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的符号系统。由此,自然语言处理自然而然地就划分成了两个研究学科:语言学—研究文本,语音学—处理声音。

在自然语言处理的多个定义中,我最喜欢这个:

自然语言处理是研究人与人交际中,以及人与计算机交际中语言问题的一门学科。

研究内容

信息时代,人们交互的形式更加灵活、多样、广泛。然而,人脑是如何理解自然语言的?我们该如何建立语言与客观世界之间的联系?从数学角度这些问题又是否是可以计算?如果可以计算,那么计算模型和方法以及复杂度又是如何呢?

面对如此多的问题,研究者们在各个领域开枝散叶,将庞大的问题划分为一个个叶节点,构建了繁华的 NLP 世界。下面让我们了解一下当前的自然语言处理。

  • 应用领域

    自然语言处理的内容非常广泛,主要研究领域包括但不限于:

    机器翻译信息检索情感识别
    信息过滤信息抽取舆情分析
    文字识别语音识别声音认证
  • 研究层次

    如果抛开语音学研究的方面,自然语言处理研究的问题一般涉及自然语言的形态学、语法学、语义学和语用学等几个层次。

    1. 形态学

      形态学又称“词法”,这个层次研究的是词的内部结构、构词法。

    2. 语法学

      语法学研究句子结构成分之间的相互关系和组成句子序列的规则。它关心的是:一句话可以有哪些表达方式?或为什么既可以这么说,也可以那么说?

      个人感觉词性标注可能也属于形态学的研究范畴。

    3. 语义学

      语义学研究的是语言实际所表达的内在含义,关注的是一个语言单位到底表达了什么。

    4. 语用学

      语用学是指联系语境对语言进行研究。其关注的中心是:为什么在特定的上下文环境中要说这句话?或为什么要以这种方式说这句话?

      个人看法:语用学可以与“人的情商”联系,即在当前所处环境中,怎样说话是最好的。

面临的困难

目前机器学习发展已经较为成熟,深度学习等 AI 算法发展亦如火如荼,虽然它们可以很好地支持自然语言处理的发展,但目前我们仍然面对诸多问题,其中最棘手的就是语言歧义。


例如:“喜欢乡下的孩子。”

第一种断句方法:“喜欢 [ 乡下的孩子 ]”。所表达的含义为:对乡下的孩子有好感。

第二种断句方发:“[ 喜欢乡下 ] 的孩子”。所表达的含义为:这个孩子喜欢乡下。


在英文中同样存在歧义,例如:Put the rock in the box on the table.

(1) Put the rock [ in the box on the table ],所表达的含义为:把石头放进桌子上的盒子里。

(2) Put [ the rock in the box ] on the table,所表达的含义为:把桌子上的石头放进盒子里。


而且,随着介词短语(例如:in the yard)的增加,歧义结构的组合数是成指数级增加的。这个歧义结构的组合数称为 卡塔兰数 (Catalan numbers),记作 C n C_n Cn,可由下式计算:

C n = C 2 n n 1 n + 1 , 其 中 C 2 n n 为 排 列 组 合 中 的 数 学 标 记 C_n=C_{2n}^{n}\frac{1}{n+1},其中 C_{2n}^{n} 为排列组合中的数学标记 Cn=C2nnn+11C2nn

对于一个特定的 NLP 系统来说,总有可能遇到未知词汇或未知结构等各种意想不到的情况,而且每一种语言又都随着社会的发展而动态变化。所以,一个实用的自然语言处理系统必须有较好的对未知语言现象处理的能力,而且应该有足够的对各种可能输入形式的容错能力。

综上,自然语言处理系统要具备良好的语言处理能力以及足够的鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值