中文句法结构

参考：NLP+句法结构（三）︱中文句法结构（CIPS2016、依存句法、文法）

自然语言处理中的自然语言句子级分析技术，可以大致分为词法分析、句法分析、语义分析三个层面。
第二个层面的句法分析（syntactic parsing）是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析，一方面是语言理解的自身需求，句法分析是语言理解的重要一环，另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言（或者同时两种语言）进行句法分析；语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。

根据句法结构的表示形式不同，最常见的句法分析任务可以分为以下三种：
(1) 短语结构句法分析（phrase-structure syntactic parsing），该任务也被称作成分句法分析（constituent syntactic parsing），作用是识别出句子中的短语结构以及短语之间的层次句法关系；
(2) 依存句法分析（dependency syntactic parsing），作用是识别句子中词汇与词汇之间的相互依存关系；
(3) 深层文法句法分析，即利用深层文法，例如词汇化树邻接
文法（Lexicalized Tree Adjoining Grammar， LTAG）、词汇功能文法（Lexical Functional Grammar， LFG）、组合范畴文法（Combinatory Categorial Grammar， CCG）等，对句子进行深层的句法以及语义分析。

上述几种句法分析任务比较而言，依存句法分析属于浅层句法分析。其实现过程相对简单，比较适合在多语言环境下的应用，但是依存句法分析所能提供的信息也相对较少。深层文法句法分析可以提供丰富的句法和语义信息，但是采用的文法相对复杂，分析器的运行复杂度也较高，这使得深层句法分析当前不适合处理大规模数据。短语结构句法分析介于依存句法分析和深层文法句法分析之间。

词法分析是将输入句子从字序列转化为词和词性序列，句法分析将输入句子从词序列形式转化为树状结构，从而刻画句子的词法和句法结构。

摘录自：CIPS2016 中文信息处理报告《第一章词法和句法分析研究进展、现状及趋势》P8 -P11
CIPS2016> 中文信息处理报告下载链接：http://cips-upload.bj.bcebos.com/cips2016.pdf

不同类型的句法分析体现在句法结构的表示形式不同，实现过程的复杂程度也有所不同。因此，科研人员采用不同的方法构建符合各个语法特点的句法分析系统。下文主要对句法分析技术方法和研究现状进行总结分析。

一、依存句法分析

依存句法存在一个共同的基本假设：句法结构本质上包含词和词之间的依存（修饰）关系。一个依存关系连接两个词，分别是核心词（head）和依存词（dependent）。依存关系可以细分为不同的类型，表示两个词之间的具体句法关系。

依存句法分析的形式化目标是针对给定输入句子，寻找分值（或概率）最大的依存树

其中， Y(x)表示输入句子x对应的合法依存树集合，即搜索空间； θ 为模型参数，即特征权重向量。

目前研究主要集中在数据驱动的依存句法分析方法，即在训练实例集合上学习得到依存句法分析器，而不涉及依存语法理论的研究。数据驱动的方法的主要优势在于给定较大规模的训练数据，不需要过多的人工干预，就可以得到比较好的模型。因此，这类方法很容易应用到新领域和新语言环境。数据驱动的依存句法分析方法主要有两种主流方法：基于图（graph-based）的分析方法和基于转移（transition-based）的分析方法。

1、基于图的依存句法分析方法

基于图的方法将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。根据依存树分值中包含的子树的复杂度，基于图的依存分析模型可以简单区分为一阶和高阶模型。高阶模型可以使用更加复杂的子树特征，因此分析准确率更高，但是解码算法的效率也会下降。基于图的方法通常采用基于动态规划的解码算法，也有一些学者采用柱搜索 (beamsearch)来提高效率。学习特征权重时，通常采用在线训练算法，如平均感知（averaged
perceptron）。

2、基于转移的依存句法分析方法

基于转移的方法将依存树的构成过程建模为一个动作序列，将依存分析问题转化为寻找最优动作序列的问题。早期，研究者们使用局部分类器（如支持向量机等）决定下一个动作。近年来，研究者们采用全局线性模型来决定下一个动作，一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面，基于转移的方法可以充分利用已形成的子树信息，从而形成丰富的特征，以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似，基于转移的方法通常也采用在线训练算法学习特征权重。

3、多模型融合的依存句法分析方法

基于图和基于转移的方法从不同的角度解决问题，各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征，而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。详细比较发现，这两种方法存在不同的错误分布。因此，研究者们使用不同的方法融合两种模型的优势，常见的方法有：stacked learning；对多个模型的结果加权后重新解码(re-parsing)；从训练语料中多次抽样训练多个模型(bagging)。

二、短语结构句法分析

短语结构句法分析的研究基于上下文无关文法（Context Free Grammar,CEG）。上下文无关文法可以定义为四元组<T,N,S,R>，其中T表示终结符的集合（即词的集合），N表示非终结符的集合（即文法标注和词性标记的集合），S表示充当句法树根节点的特殊非终结符，而 R 表示文法规则的集合，其中每条文法规则可以表示为，这里的表示由非终结符与终结符组成的一个序列（允许为空）。

当前主流的句法分析模型，无论底层的机器学习方法（生成模型或者判别模型）或是所采用的系统框架（单系统、多系统融合或者两阶段的重排序方法），本质上都可以归到基于词汇化方法或者基于符号重标记方法的句法分析器。

三、深层文法句法分析

相对前两种句法分析，深层文法句法分析的研究相对较少。本节简要介绍词汇化树邻接文法（Lexicalized Tree Adjoining Grammar， LTAG）、词汇功能文法（Lexical Functional
Grammar， LFG）和组合范畴文法（Combinatory Categorial Grammar， CCG）。

1、词汇化树邻接文法，简称LTAG，是对树邻接文法（TAG）进行词汇化扩展得到的。

树邻接文法包含两种基本树（Elementary Tree）：初始树（Initial Tree）和辅助树（Auxiliary Tree）。
在树邻接文法中，有两种子树操作：替换（ Substitution）和插接（ Adjunction）。
词汇化语法是给所有基本树都和具体词关联起来，使得树更加具有个性化。

2、词汇功能文法，简称 LFG，是一种短语结构文法。

LFG 把语言看成是由多维结构组成的，每一维都用特殊规则、概念和格式表示成一个特殊结构。
LFG 包含两种最基本的结构：
- 1） F-结构，用于表示语法功能；
- 2） C-结构，用于表示句法功能。
- 除此之外还有一些其他结构，用于表示浅层信息，例如谓词论元关系等。

3、组合范畴文法，简称CCG，一种类型驱动的词汇化文法，通过词汇范畴显式地提供从句法到语义的接口，属于短语结构文法。

CCG 的基本操作包括：
- 1）原子范畴（Atomic Category），用于表达基本的词汇类别和句法功能；
- 2）组合范畴（Function Category），由原子范畴构
  成，通常用 X/Y 或 X\Y 来表示可以向左或者向右寻找变元 Y 来获得组合 X。

基于深层文法的句法分析器也取得一些进展。例如，Boullier 和 Sagot 构建基于LFG的分析器-SxLFG。 WenduanXu 等人借鉴依存分析模型，采用 Shift-reduce 框架构建高效的
CCG 分析器取得很好的效果。在树库语料方面，大多数深层文法树库是通过从 PTB 自动转换得到的，而黄昌宁老师在清华中文树库基础上结合中文特点，探索如何构建中文 CCG 树库。

四、基于深度学习的句法分析

深度学习（Deep Learning）在句法分析课题上主要研究工作集中在特征表示方面。深度学习把原子特征进行向量化，在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示，从而便于寻找特征组合与表示，同时容易进行计算。

在图 1 中，把词、词性、类别标签等原子特征表示为向量，然后利用多层网络进行特征提取。深度学习在特征表示方面有如下优点：

1）只需要原子特征。这些原子特征以前是通过人工的自由组合形成最终的一元特征、二元特征、三元特征、四元特征甚至更多元的组合。这种人工组合最后取得较好的效果，但是事实上我们不知道怎么组合能形成最佳的特征集合。深度学习将所有的原子特征向量化之后，直接采用向量乘法以及非线性等各种运算从理论上能实现任意元的特征组合。

2）能使用更多的原子特征。比如基于图的模型中，在建立弧时，不仅仅使用左边第一个词、右边第一个词等原子特征，还可以使用左边整个词序列、右边整个词序列的特征。研究人员把这种基于深度学习的特征表示方法分别应用在基于图的句法分析模型和基于转移的句法分析模型上，实验结果表明深度学习方法开始在句法中发挥作用。