1. 计算语言学的任务
1.1 自然语言处理任务——句法分析任务
1.1.1 词法(Syntatic tasks:Word level)
在自然语言处理中,词法分析主要涉及到词汇层面的处理,包括形态划分、分词、切分以及词性标注等任务。
1.1.1.1 形态划分(Morphological analysis)
形态划分是对词的内部结构和构成进行分析的过程。它涉及到识别词根(基本含义的词部分)、词缀(前缀、后缀,用来修改词根含义的部分)、复合词(由两个或两个以上的词根组合而成的词)等。形态划分帮助我们理解词的形态变化如何影响其语义和语法角色。
walking—> walk + ing
1.1.1.2 分词(Word segmentation)
分词是将文本中的连续字符序列切分成独立的词汇单元的过程。在使用空格作为词界标识的语言(如英语)中,分词相对简单。然而,在像中文这样的语言中,词与词之间没有明显的界限,分词成为一个挑战性的任务,需要依赖特定的算法来识别词汇边界。
中国外企业务—> 中国 外企 业务
1.1.1.3 切分/符号化(Tokenization)
切分是将文本切分成更小的单元(token),这些单元可以是词、标点符号、特殊字符等。切分是文本处理的基础步骤,为后续的分析任务(如词性标注、句法分析等)准备数据。切分通常关注于文本的技术处理,而不涉及词汇的语言学属性。
1.1.1.4 词性标注(POS Tagging)
词性标注是指为文本中的每个词汇分配一个词性标签的过程。这些标签代表了词汇在语法中的功能,如名词、动词、形容词等。词性标注是理解句子结构和语义的重要步骤,通常需要依赖于上下文信息和词汇本身的特征。
总的来说,这些词法分析任务是理解和处理自然语言的基础,它们为深入的语言理解和复杂的自然语言处理应用提供了必要的预处理步骤。
1.1.2 句法Syntax(Syntatic tasks:Sentence level)
自然语言处理中句子级别的句法分析任务,包括成分句法分析/短语结构句法分析、依存句法分析、TAG、以及组合范畴句法分析。以下是这些概念的中文解释:
1.1.2.1 成分句法分析/短语结构句法分析(Constituent parsing)
这种分析方法旨在通过算法自动地识别句子的结构,将句子分解为各种成分(如名词短语、动词短语等)和子成分。它构建了一个树状结构,表明句子的层次和成分之间的关系。这种分析有助于理解句子是如何从词汇层面组合成更大的语义单位的。
1.1.2.2 依存句法分析(Dependency parsing)
依存句法分析关注的是词与词之间的依存关系,试图找到句子中的“root”根节点以及其他词语是如何依附于这个根节点或其他词语的。每个词语除了根节点外,都有一个“父”词语,并通过依存关系与之相连。这种分析有助于揭示句子的谓语-论元结构,即动词与其相应的主语、宾语等的关系。
1.1.2.3 TAG(Tree Adjoining Grammar)
TAG是一种用于捕捉自然语言灵活性和复杂性的形式语法系统。它通过一系列基本树和复杂树(通过特定规则连接)来表示语言结构,特别是那些传统句法树难以捕捉的复杂结构,如跨距离依赖等。
1.1.2.4 组合范畴句法分析(CCG parsing)
组合范畴语法(CCG)是一种高度灵活的句法分析方法,它将词汇项与一组句法和语义规则相结合,这些规则指定了词汇项如何组合来形成更大的短语和句子。
CCG超标记(Supertagging)是一个预处理步骤,为句中的每个词汇分配一个“超标记”,这些超标记包含了足够的信息来指导后续的句法分析过程。
这些句法分析方法各有特点,它们提供了不同的视角来理解句子结构,是深入研究语言学和开发复杂自然语言处理系统的重要工具。
1.2 自然语言处理任务——语义分析任务
1.2.1 词的级别(Semantic tasks:Word level)
在自然语言处理(NLP)和语言学中,词级别的语义任务是理解和操作单个词汇项的意义及其相互之间的关系。以下是一些主要的词级语义任务:
1.2.1.1 词义消歧(WSD:Word Sense Disambiguation)
词义消歧指的是确定一个多义词在特