基于深度学习的电力标准实体关系抽取方法及装置制造方法及图纸

技术编号:39056007 阅读:11 留言:0更新日期:2023-10-12 19:49
本发明专利技术公开了一种基于深度学习的电力标准实体关系抽取方法及装置。方法包括:(1)数据预处理,数据归类并清洗电力技术标准条款中的脏数据;(2)利用注意力图神经网络筛选依存关系,预测电力技术标准条款的实体关系三元组;(3)构建置信度模型,对抽取出来的三元组进行后处理过滤;(4)采用递进式抽取方法,从抽取出的三元组中构造出关系模板,凭借关系模板在文本中进行匹配从而发现新的关系。本发明专利技术综合利用自然语言处理技术和深度学习技术对电力标准进行实体关系抽取,能够更准确、更高效获得电力标准实体关系。电力标准实体关系。电力标准实体关系。

【技术实现步骤摘要】
基于深度学习的电力标准实体关系抽取方法及装置


[0001]本专利技术属于计算机应用
,尤其涉及一种基于深度学习的电力标准实体关系抽取方法及装置。

技术介绍

[0002]当前,国家在电网建设以及运行所涉及的各个阶段和方面都发布了大量技术标准和技术文件。电力标准对实现电力行业生产运行工作标准化和程序化具有重要的指导作用,实施电力标准可以有效避免因电力企业员工的个体差异从而产生相同工作存在质量差异的现象,另外电力标准也可以保证电力企业的安全生产。
[0003]但是电力行业国家标准领域知识专业性强、覆盖面广,知识和业务层级体系庞大,现阶段的电网领域知识体系构建主要以专家人工构建方式为主,存在人工和时间成本过于昂贵的问题;同时,国家标准条款数据内容冗长、句式复杂,通过有监督的实体关系抽取的方法,存在抽取质量过低和大量人工审核成本的问题。
[0004]实体关系抽取作为知识图谱构建的前置步骤,高效的实体关系抽取方法能够进一步推动电力行业标准管理的数字化转型,为标准的精准搜索、智能作业、领域知识图谱构建等典型应用场景功能提供技术支撑。同时降低电力行业标准管理基层人员负担,解决电力行业管理人员对标准条款知识获取困难、利用不便、应用不足的问题。
[0005]综上所述,对于电力行业国家标准需要一种能更加准确、更加适合电力标准数据的实体关系抽取方法。

技术实现思路

[0006]专利技术目的:本专利技术的目的是提供一种基于深度学习的电力标准实体关系抽取方法及装置,更准确、更高效、全面地获得电力标准数据中实体关系三元组,为知识图谱构建等电力行业数字化建设提供可靠的技术支撑。
[0007]技术方案:第一方面,提供一种基于深度学习的电力标准实体关系抽取方法,包括以下步骤:
[0008](1)数据预处理,进行数据归类并清洗电力标准条款中的无用数据;
[0009](2)获取电力标准条款文本的依存句法树,利用注意力图神经网络筛选依存关系,抽取电力技术标准条款的实体关系三元组;
[0010](3)利用置信度模型对抽取出来的三元组进行后处理过滤;
[0011](4)采用递进式抽取方法,从抽取出的三元组中构造出关系模板,凭借关系模板在文本中进行匹配从而发现新的关系。
[0012]进一步地,所述步骤(1)包括:
[0013](1

1)利用机器学习聚类算法,将电力标准条款归类,包括:将所要聚类的文本进行分词,然后使用停用词来筛查分词结果,若分词结果中有停用词表中的词则删除,最后将分词转为向量并通过计算向量之间的相似度,完成聚类;
[0014](1

2)利用正则表达式匹配的方法,去除电力标准条款中的异常数据,所述异常数据是指电力标准条款中含有的一些格式化的信息。
[0015]进一步地,所述步骤(2)包括:
[0016](2

1)使用自然语言处理工具包获取电力标准条款文本的依存句法树;
[0017](2

2)根据依存句法树构建依存关系邻接矩阵A和依存类别邻接矩阵T,其中依存关系邻接矩阵A用于存储两词之间是否存在依存关系,若两词之间存在关系则矩阵元素为1,否则为0;依存类别邻接矩阵T用于存储两词之间的依存关系类别;
[0018](2

3)使用BERT模型作为编码器,提取电力文本序列的特征,得到表示文本序列的向量序列;
[0019](2

4)基于词的BERT特征向量以及与其相关联的上下文词的依存关系和关系类型信息来构建编码向量,并引入注意力机制计算每个依存关系的权重,将权重分配给上下文特征,最后基于注意力图卷积神经网络的输出来预测两个实体之间的关系标签,两个实体及其之间的关系构成三元组。
[0020]进一步地,所述注意力图卷积神经网络的处理包括:给定一个非结构化输入语句进一步地,所述注意力图卷积神经网络的处理包括:给定一个非结构化输入语句所述指的是标准内容文本,其中有n个词并让E1和E2表示中的两个实体,通过以下方式预测E1与E2之间的关系:
[0021][0022]其中表示的依存关系树,R是关系类型集合;p计算给定两个实体的特定关系的概率,f(
·
)表示注意力图卷积神经网络,而是以和为输入的注意力图卷积神经网络的输出。
[0023]进一步地,所述步骤(3)中,所述置信度模型针对电力数据从三个方面考察:实体对之间的距离、关系指示词与实体对的相对位置、关系指示词的词性;
[0024]所述利用置信度模型对抽取出来的三元组进行后处理过滤包括:通过对电力标准语料的统计分析,为考察的各个置信度指标设置置信度分数,保留置信度分数高于指定阈值的关系三元组。
[0025]进一步地,对于实体对之间的距离,设置了三个距离空间[1,5),[5,8),[8,10),并分别赋予置信度分数为0.5,0.3,0.2,当两实体间位置距离不在此空间时则认为实体对之间不存在关系;
[0026]对于关系指示词与实体对的相对位置,设置了两种关系指示词与实体对的相对位置的置信度分数,当关系指示词在实体对之间时赋予0.7的置信度分数,当关系指示词在实体对右边时赋予0.3的置信度分数,当关系指示词在实体对其他位置时则认为实体对之间不存在当前关系;
[0027]对于关系指示词的词性,设置了三种关系指示词的词性的置信度分数,关系指示词为动词、名词和其他,分别赋予的置信度分数为0.5,0.35,0.15。
[0028]进一步地,所述步骤(4)包括:
[0029](4

1)基于步骤(3)的结果,将提取出来的三元组构造为关系模板,构造关系模板是指从提取出三元组的文本中,找出两个实体以及关系指示词的词性标注,以及三元组中间的词并使用词本身,关系模板表示为<n1,r,v,n2>,其中n1和n2分别表示实体1和实体2,r
表示关系,v表示关系动词;
[0030](4

2)利用关系模板,在文中进行匹配,发现新的实体关系三元组;
[0031](4

3)对关系模板进行筛选,对于每一次递进抽取过程中,将关系模板出现的次数由高到低排序,只保留指定百分比的前N个模板以及实体关系三元组;
[0032](4

4)用筛选的关系模板进行匹配,抽取新的实体关系三元组,并利用步骤(3)的置信度模型进行考量,之后再构造新的关系模板,循环递进,直到没有新的模板或者没有新的三元组为止。
[0033]第二方面,提供一种基于深度学习的电力标准实体关系抽取装置,包括:
[0034]数据预处理模块,用于进行数据归类并清洗电力标准条款中的无用数据;
[0035]三元组抽取模块,用于获取电力标准条款文本的依存句法树,利用注意力图神经网络筛选依存关系,抽取电力技术标准条款的实体关系三元组;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的电力标准实体关系抽取方法,其特征在于,包括以下步骤:(1)数据预处理,进行数据归类并清洗电力标准条款中的无用数据;(2)获取电力标准条款文本的依存句法树,利用注意力图神经网络筛选依存关系,抽取电力技术标准条款的实体关系三元组;(3)利用置信度模型对抽取出来的三元组进行后处理过滤;(4)采用递进式抽取方法,从抽取出的三元组中构造出关系模板,凭借关系模板在文本中进行匹配从而发现新的关系。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括:(1

1)利用机器学习聚类算法,将电力标准条款归类,包括:将所要聚类的文本进行分词,然后使用停用词来筛查分词结果,若分词结果中有停用词表中的词则删除,最后将分词转为向量并通过计算向量之间的相似度,完成聚类;(1

2)利用正则表达式匹配的方法,去除电力标准条款中的异常数据,所述异常数据是指电力标准条款中含有的一些格式化的信息。3.根据权利要求1所述的方法,其特征在于,所述步骤(2)包括:(2

1)使用自然语言处理工具包获取电力标准条款文本的依存句法树;(2

2)根据依存句法树构建依存关系邻接矩阵A和依存类别邻接矩阵T,其中依存关系邻接矩阵A用于存储两词之间是否存在依存关系,若两词之间存在关系则矩阵元素为1,否则为0;依存类别邻接矩阵T用于存储两词之间的依存关系类别;(2

3)使用BERT模型作为编码器,提取电力文本序列的特征,得到表示文本序列的向量序列;(2

4)基于词的BERT特征向量以及与其相关联的上下文词的依存关系和关系类型信息来构建编码向量,并引入注意力机制计算每个依存关系的权重,将权重分配给上下文特征,最后基于注意力图卷积神经网络的输出来预测两个实体之间的关系标签,两个实体及其之间的关系构成三元组。4.根据权利要求3所述的方法,其特征在于,所述注意力图卷积神经网络的处理包括:给定一个非结构化输入语句所述指的是标准内容文本,其中有n个词并让E1和E2表示中的两个实体,通过以下方式预测E1与E2之间的关系:其中表示的依存关系树,R是关系类型集合;p计算给定两个实体的特定关系的概率,f(
·
)表示注意力图卷积神经网络,而是以和为输入的注意力图卷积神经网络的输出。5.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,所述置信度模型针对电力数据从三个方面考察:实体对之间的距离、关系指示词与实体对的相对位置、关系指示词的词性;所述利用置信度模型对抽取出来的三元组进行后处理过滤包括:通过对电力标准语料的统计分析,为考察的各个置信度指标设置置信度分数,保留置信度分数高于指定阈值的关系三元组。
6.根据权利要...

【专利技术属性】
技术研发人员:郑倩雍怡博杨强陈恭袁葆王军钟天齐姜海东张涛王倩孙丽丽张莹管王宁李澳澳王思宁
申请(专利权)人:国网智能电网研究院有限公司北京中电普华信息技术有限公司华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1