一种调度规程规定本体术语关系抽取方法及系统技术方案

技术编号:23050228 阅读:86 留言:0更新日期:2020-01-07 14:48
本发明专利技术公开了一种调度规程规定本体术语关系抽取方法及系统,包括以下过程:确定调度规程规定文本,并确定需要从文本中提取的本体术语关系,包括同义关系、并列关系、整体部分关系与属种关系;通过基于模式匹配方法从文本里抽取同义关系和并列关系;基于统计和聚类方法从文本里抽取整体部分关系与属种关系。通过将基于规则的方法、基于聚类的无监督机器学习以及基于统计的过滤方法相结合,准确地得到了术语间的关系。

A method and system for extracting ontology term relations from scheduling rules

【技术实现步骤摘要】
一种调度规程规定本体术语关系抽取方法及系统
本专利技术属于电力系统本体模型构建
,具体涉及一种调度规程规定本体术语关系抽取方法及系统。
技术介绍
随着电网的高速发展和运行规模的不断扩大,传统组织与管理模式的局限性日渐显现。目前,国家电网大力推进调控一体化建设,着力于提升电网的管理运行水平。在调控一体化模式下,面对海量的信息与调控需求,调控人员的工作压力陡增。与调度计划制定、执行相关的资料条目繁多、类型复杂,涉及的单位数量多、范围广,传统的规程规定检索查询方式已经落后,特别是在多种调控需求或故障告警同时产生时,调控人员难以及时、准确地对事件优先级排序、判定故障类型并提出解决方案。近年来,本体被引入到了电网调度规程规定的知识建模中。在已知事件种类的情况下通过匹配、推理、查询功能输出符合规程规定的操作步骤与方案,使调度人员能够在有参考的情况下准确、快速地判断电网运行状态、做出调度决策。构建领域本体的方法主要有两种,一种是领域专家手工构建,缺点是费时费力;另一种是基于本体学习实现自动或半自动构建。本体学习是多种技术的综合,主要用于概念、概念关系及公理的抽取。目前领域术语抽取的准确率大约80%至90%,但术语关系抽取的准确率较低,根据抽取关系的类型不同,准确率为20%到80%不等。为此,本专利技术提出了基于模式匹配、统计和聚类组合方法的本体术语构建,对非结构化中文文本术语关系的自动抽取,应用于电网调度领域本体的构建,有利于该领域的知识共享与重用,并提升了本体术语关系抽取的准确性与自动化程度。>
技术实现思路
本专利技术的目的在于克服现有技术中的不足,提供了一种调度规程规定本体术语关系抽取方法,解决了现有技术中术语关系抽取的准确率较低的技术问题。为解决上述技术问题,本专利技术提供了一种调度规程规定本体术语关系抽取方法,其特征是,包括以下过程:确定调度规程规定文本,并确定需要从文本中提取的本体术语关系,包括同义关系、并列关系、整体部分关系与属种关系;通过基于模式匹配方法从文本里抽取同义关系和并列关系;基于统计和聚类方法从文本里抽取整体部分关系与属种关系。进一步的,通过基于模式匹配方法从文本里抽取同义和并列关系包括:首先构造出若干模式规则,然后判断文本中的词序列是否与某个模式相匹配,若匹配,即可抽取出相应的关系。进一步的,基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括:通过计算术语的共现度或相关度获取文本中术语间的关系,利用术语之间的语义距离,对术语进行聚类,将属种关系和整体部分关系分开。进一步的,同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。相应的,本专利技术还提供了一种调度规程规定本体术语关系抽取系统,其特征是,包括关系分类模块和关系抽取模块;关系分类模块,用于确定调度规程规定文本,并确定需要从文本中提取的本体术语关系,包括同义关系、并列关系、整体部分关系与属种关系;关系抽取模块,用于通过基于模式匹配方法从文本里抽取同义关系和并列关系;基于统计和聚类方法从文本里抽取整体部分关系与属种关系。进一步的,关系抽取模块中,通过基于模式匹配方法从文本里抽取同义和并列关系包括:首先构造出若干模式规则,然后判断文本中的词序列是否与某个模式相匹配,若匹配,即可抽取出相应的关系。进一步的,关系抽取模块中,基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括:通过计算术语的共现度或相关度获取文本中术语间的关系,利用术语之间的语义距离,对术语进行聚类,将属种关系和整体部分关系分开。进一步的,关系抽取模块中,同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。与现有技术相比,本专利技术所达到的有益效果是:通过将基于规则的方法、基于聚类的无监督机器学习以及基于统计的过滤方法相结合,准确地得到了术语间的关系;根据实际应用的需要分析句子的依存结构信息。在此基础上提取了两类有针对性的特征,并进行了基于K-means聚类的无监督机器学习,通过融合自然语言处理技术、统计方法以及基于聚类的机器学习方法,抽取了层级关系。对非结构化中文文本术语关系的自动抽取,应用于电网调度领域本体的构建,有利于该领域的知识共享与重用,并提升了本体术语关系抽取的准确性与自动化程度。附图说明图1为本专利技术提出的关系抽取系统框架;图2为K-means算法流程图;图3为实施例中符合某种规则的句子举例;图4为实施例中句子各成分间的依存关系;图5为实施例中符合特征选取条件的句子;图6为实施例中存在关键词句子的统计;图7为实施例中聚类后的坐标点;图8为实施例中聚类后的三维坐标图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。本专利技术的一种调度规程规定本体术语关系抽取方法,包括以下过程:1、领域本体中术语关系分类确定调度规程规定文本(即下文中的文本)。术语关系表征术语的组成或术语间的联系。术语有层级和非层级关系。本专利技术针对层级关系,选取了四个具有代表性的关系类型,即同义关系、并列关系、整体部分关系与属种关系。整体部分关系与属种关系是构建本体的基础,同义关系是构建概念的依据,并列关系是关系过滤和关系扩展的依据。2、关系抽取系统框架针对术语关系类型的多样化问题,本专利技术采用组合方法进行术语关系的抽取。综合术语的词法、语法和语义等特征,对不同的关系类型采用不同的或组合的方法,以提高抽取准确率。系统框架图如附图1所示,具体的抽取方法为:通过基于模式匹配方法从文本里抽取同义和并列关系,首先构造出若干模式规则,然后判断文本中的词序列是否与某个模式相匹配,若匹配,即可抽取出相应的关系。基于统计和聚类方法从文本里抽取整体部分关系与属种关系。目前采用的统计方法主要是通过计算术语的共现度或相关度等获取术语间的关系。例如,首先抽取术语的上下文,并将其表示为特征词向量模型,利用向量模型的相似度计算公式来获得术语之间的相关度,从而获得候选关系集合。聚类的方法是利用术语之间的语义距离,对术语进行聚类,这样,同一类中的术语就具有相似语义的关系。此外,还可以按照层次关系进行聚类,也就是抽取术语间的分类关系。每一种关系可以用三元组的形式表示,即(术语1,关系,术语2)。在要抽取的四类关系中,同义关系将用于同义术语合并进而形成概念,并列关系常常作为实际问题的中间结果,起到关系过滤或扩展的作用,属种关系和整体部分关系确定本体的骨架。3、基于聚类的方法有监督的机器学习方法较少用于关系抽取,原因是需要大量的标注语料,导致结果对标注集的依赖性,而且语料标注费时费力。本文采用无监督学习的聚类结合统计的方法,筛选不包含属种关系和整体部分关系的语例。具体过程是对每一个句子进行依存解析,通过提取语例的语法结构特征来完成无本文档来自技高网...

【技术保护点】
1.一种调度规程规定本体术语关系抽取方法,其特征是,包括以下过程:/n确定调度规程规定文本,并确定需要从文本中提取的本体术语关系,包括同义关系、并列关系、整体部分关系与属种关系;/n通过基于模式匹配方法从文本里抽取同义关系和并列关系;基于统计和聚类方法从文本里抽取整体部分关系与属种关系。/n

【技术特征摘要】
1.一种调度规程规定本体术语关系抽取方法,其特征是,包括以下过程:
确定调度规程规定文本,并确定需要从文本中提取的本体术语关系,包括同义关系、并列关系、整体部分关系与属种关系;
通过基于模式匹配方法从文本里抽取同义关系和并列关系;基于统计和聚类方法从文本里抽取整体部分关系与属种关系。


2.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法,其特征是,通过基于模式匹配方法从文本里抽取同义和并列关系包括:
首先构造出若干模式规则,然后判断文本中的词序列是否与某个模式相匹配,若匹配,即可抽取出相应的关系。


3.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法,其特征是,基于统计和聚类方法从文本里抽取整体部分关系与属种关系包括:
通过计算术语的共现度或相关度获取文本中术语间的关系,
利用术语之间的语义距离,对术语进行聚类,将属种关系和整体部分关系分开。


4.根据权利要求1所述的一种调度规程规定本体术语关系抽取方法,其特征是,同义关系、并列关系、整体部分关系与属种关系均用三元组的形式表示。


5.一种调度规程规定本体术语关系抽取系...

【专利技术属性】
技术研发人员:林静怀李宽宏董根源余俊宏徐志光米为民王昊
申请(专利权)人:国网福建省电力有限公司国网福建省电力有限公司福州供电公司北京科东电力控制系统有限责任公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1