What is Semantic Role Labeling ?
概念(from reference)
- 自然语言分析技术大致分为三个层面:词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中,谓词是对主语的陈述或说明,指出“做什么”、“是什么”或“怎么样,代表了一个事件的核心,跟谓词搭配的名词称为谓元(论元)。语义角色是指谓元在动词所指事件中担任的角色。主要有:施事者(Agent)、受事者(Patient)、客体(Theme)、经验者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、处所(Location)、目标(Goal)和来源(Source)等
任务介绍
语义角色标注(SRL)任务是指以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元(Argument)结构**,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。在研究中一般都假定谓词是给定的,所要做的就是找出给定谓词的各个论元和它们的语义角色。
Motivation: From Sentences to Propositions(抽取句子的主干意义)
将语言信息结构化,方便计算机理解句子中蕴含的语义信息。
语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
语义标注的不足之处
- 仅仅对于特定谓词进行论元标注,那多谓词呢?没有涉及到。
- 不会补出句子所省略的部分语义。信息有所缺失。
核心的语义角色: A0-5 六种,A0 通常表示动作的施事,A1通常表示动作的影响等,A2-5 根据谓语动词不同会有不同的语义含义。
附加的15种语义角色
标注
- 传统方法
- 依赖句法分析的结果进行。因为句法分析包括短语结构分析、浅层句法分析、依存关系分析,所以语义角色标注也可以按照此思路分类。
- 基于短语结构树的语义角色标注方法
- 基于浅层句法分析结果的语义角色标注方法
- 基于依存句法分析结果的语义角色标注方法
- 基于特征向量的 SRL
- 基于最大熵分类器的 SRL
- 基于核函数的 SRL
- 基于条件随机场的 SRL
- 统一标注的过程:句法分析->候选论元剪除->论元识别->论元标注->语义角色标注结果
- 论元剪除:在较多候选项中去掉肯定不是论元的部分(span)
- 论元识别:一个二值分类问题,即:是论元和不是论元
- 论元标注:一个多值分类问题
传统的SRL系统大多建立在句法分析基础之上,通常包括5个流程:
- 构建一棵句法分析树,例如,上图是对上面例子进行依存句法分析得到的一棵句法树。
- 从句法树上识别出给定谓词的候选论元。
- 候选论元剪除;一个句子中的候选论元可能很多,候选论元剪除就是从大量的候选项中剪除那些最不可能成为论元的候选项。
- 论元识别:这个过程是从上一步剪除之后的候选中判断哪些是真正的论元,通常当做一个二分类问题来解决。
- 对第4步的结果,通过多分类得到论元的语义角色标签。可以看到,句法分析是基础,并且后续步骤常常会构造的一些人工特征,这些特征往往也来自句法分析。
如何设计分类问题的特征?
- 谓词本身、
- 短语结构树路径、
- 短语类型、
- 论元在谓词的位置、
- 谓词语态、
- 论元中心词、
- 从属类别、
- 论元第一个词和最后一个词、
- 组合特征