本发明专利技术公开了一种中文实体间语义关系抽取方法,包括:对自然语句进行句法分析,确定自然语句的完全句法树;在完全句法树中提取两个中文实体之间的最短路径包含树;在最短路径包含树中提取距离第二中文实体最近的路径动词;分别获取两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入最短路径包含树的根节点下,确定扩展后的最短路径包含树为自然语句的关系树;利用预存的分类模型对关系树进行关系分类。本发明专利技术公开的中文实体间语义关系抽取方法,关系树包含了丰富的结构化信息和词汇语义信息、具有较好的通用性,语义关系抽取的总体性能较好,并且减轻了对大规模语料库的依赖程度,同时系统的计算量较低。
【技术实现步骤摘要】
本专利技术属于文本处理
,尤其涉及。
技术介绍
命名实体间语义关系抽取(可简称为实体关系抽取或关系抽取)是信息抽取中的一个重要研究内容,其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系,例如短语“美国总统克林顿的平壤之行”中的两个实体“克林顿”(PER-人物)和“平壤”(GPE-地理政治实体)之间存在的物理位置关系(PHYS. Located)。命名实体间语义关系抽取作为一项应用基础性研究,对内容理解、问题回答、自动文摘、以及信息过滤等自然语言处理应用都具有重要的意义。 实体间语义关系抽取通常采用指导性的机器学习方法,按关系实例的表达形式可分为基于特征向量的方法和基于核函数的方法。在基于特征向量的实体关系抽取方法中,将关系实例转换成分类器可接受的包含词汇、句法或语义特征的特征向量。该方法尽管速度很快,也很有效,然而由于实体间语义关系表达的复杂性和可变性,其关系抽取的性能较低。在基于核函数的实体关系抽取方法中,直接以结构树为处理对象,计算各个结构树之间的相似度,再使用支持核函数的分类器进行关系抽取。由于该方法可以充分利用结构化特征,理论上可探索隐含的高维特征空间,因此,虽然它训练和预测的速度较慢,人们仍然希望通过对核函数的进一步研究和应用来提高关系抽取的性能。申请人:经过研究发现词汇语义信息在关系抽取中具有重要的作用。词汇不同但语义相近的两个词语,在两个不同的句子中可以表明相同的语义关系,例如,中文关系实例“他的妻子”和“她的丈夫”都属于家庭关系(PER-SOC. Family),其中实体“他”和“她”、“妻子”和“丈夫”是两个不同的词汇,但是却具有相近的语义。因此,如何利用词汇语义信息提高中文实体间语义关系抽取的性能,并尽量简化计算过程、降低计算量,从而降低系统开销是本领域技术人员亟待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种中文实体间语义关系抽取的方法,利用词汇语义信息提高关系抽取的性能,并尽量降低计算量,从而降低系统开销。为实现上述目的,本专利技术提供如下技术方案,用于在包含两个中文实体的自然语句中抽取实体间的语义关系,所述方法包括对自然语句进行句法分析,确定所述自然语句的完全句法树;在所述完全句法树中提取所述两个中文实体之间的最短路径包含树;在所述最短路径包含树中提取距离第二中文实体最近的路径动词,所述第二中文实体为两个中文实体中在所述自然语句出现位置靠后的中文实体;分别获取所述两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,确定扩展后的最短路径包含树为所述自然语句的关系树;利用预存的分类模型对所述关系树进行关系分类。优选的,在上述方法中,在所述最短路径包含树中提取距离第二中文实体最近的路径动词,具体包括在所述最短路径包含树中确定所述第二中文实体所处的结点;从所述第二中文实体所处结点开始,在所述第二中文实体所处结点的上层结点中查找标签为“VP”的结点;查找所述标签为“VP”的结点的子节点;当所述标签为“VP”的结点的子结点的标签为“VV”或“VE”时,获取所述标签为 “VV”或“VE”的结点的子结点处的词汇作为所述路径动词。优选的,在上述方法中,所述分别查找所述两个中文实体和路径动词的语义信息,具体包括利用预存的词语与基本义原的映射表,分别查找与所述两个中文实体和路径动词对应的基本义原;当查找到与所述两个中文实体和路径动词对应的基本义原时,将查找到的基本义原作为语义信息;当词语具有多个基本义原时,所述映射表中仅包含所述词语与其第一基本义原的映射关系。优选的,在上述方法中,当未在所述映射表中查找到与中文实体对应的基本义原时,所述方法还包括对所述未查找到基本义原的中文实体进行分词处理,获得多个新的中文子实体;利用所述映射表,查找与所述多个新的中文子实体中出现位置最靠后的中文子实体对应的基本义原;将查找到的中文子实体的基本义原作为所述未查找到基本义原的中文实体的语义信息。优选的,在上述方法中,当未查找到与所述位置最靠后的中文子实体对应的基本义原时,将所述未查找到基本义原的中文实体的语义信息赋值为“NULL”。优选的,在上述方法中,所述分别查找所述两个中文实体和路径动词的语义信息,具体包括利用预存的词语与语义编码的映射表,分别查找与所述两个中文实体和路径动词对应的语义编码;当查找到与所述两个中文实体和路径动词对应的语义编码时,在所述语义编码中从其高位截取预设位数的字符,将截取出的预设位数的字符作为语义信息;当词语包括多个语义编码时,所述映射表仅包含所述词语与其第一语义编码的映身寸关系。优选的,在上述方法中,当在所述映射表中未查找到与中文实体对应的语义编码时,所述方法还包括对所述未查找到语义编码的中文实体进行分词处理,获得多个新的中文子实体;利用所述映射表,查找与所述多个新的中文子实体中出现位置最靠后的中文子实体对应的语义编码;在查找到的中文子实体的语义编码中,从其高位截取预设位数的字符,将截取出的预设位数的字符作为所述未查找到语义编码的中文实体的语义信息。优选的,在上述方法中,当未查找到与所述位置最靠后的中文子实体对应的语义编码时,将所述未查找到语义编码的中文实体的语义信息赋值为“NULL”。优选的,在上述方法中,所述按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,具体包括在所述最短路径包含树的根结点下添加三个标识结点,所述三个标识结点分别用于标识其子结点处的词汇为第一中文实体的语义信息、第二中文实体的语义信息和路径动 词的语义信息,所述第一中文实体为所述两个中文实体中在所述自然语句出现位置靠前的中文实体;将所述三个语义信息分别写入与其相应的标志结点的子结点处。由此可见,本专利技术的有益效果为本专利技术公开的中文实体间语义关系抽取方法,将中文实体和路径动词的语义信息提取出来,然后将其加入包含中文实体对的最短路径包含树中形成关系树。该关系树包含了丰富的结构化信息和词汇语义信息,其通用性较好,因此同仅包含句法树的结构化信息相比,关系抽取的精度和召回率都得到了提高,总体性能较好;同时,由于词汇的语义信息(如语义编码或基本义原)是在一定程度上对词汇进行泛化,因此得到的关系树能够识别训练语料中不存在但语义信息相同的关系实例,也就是减少了需要标注的训练语料的数量,减轻了基于机器学习的关系抽取方法对大规模语料库的依赖程度;最后,同采用词汇语义相似度的其它核函数方法相比,本专利技术只需要将中文实体和路径动词的语义信息加入到句法树的根结点下即可,不需要计算词汇两两之间的语义相似度,从而避免了由此而带来的计算量繁重的缺点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术公开的中文实体间语义关系抽取方法的流程图;图2为本专利技术中在完全句法树中提取两个中文实体之间的最短路径包含树的流程图;图3为本专利技术中提取路径动词的流程图;图4为本专利技术中获取语义信息的一个流程图;图5为本专利技术中获取语义信息的另一个流程图;图6本文档来自技高网...
【技术保护点】
一种中文实体间语义关系抽取方法,其特征在于,用于在包含两个中文实体的自然语句中抽取实体间的语义关系,所述方法包括:对自然语句进行句法分析,确定所述自然语句的完全句法树;在所述完全句法树中提取所述两个中文实体之间的最短路径包含树;在所述最短路径包含树中提取距离第二中文实体最近的路径动词,所述第二中文实体为两个中文实体中在所述自然语句出现位置靠后的中文实体;分别获取所述两个中文实体和路径动词的语义信息;按照预设规则将获取的三个语义信息加入所述最短路径包含树的根节点下,确定扩展后的最短路径包含树为所述自然语句的关系树;利用预存的分类模型对所述关系树进行关系分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:钱龙华,刘丹丹,周国栋,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。