【技术实现步骤摘要】
基于深度学习的电力标准实体关系抽取方法及装置
[0001]本专利技术属于计算机应用
,尤其涉及一种基于深度学习的电力标准实体关系抽取方法及装置。
技术介绍
[0002]当前,国家在电网建设以及运行所涉及的各个阶段和方面都发布了大量技术标准和技术文件。电力标准对实现电力行业生产运行工作标准化和程序化具有重要的指导作用,实施电力标准可以有效避免因电力企业员工的个体差异从而产生相同工作存在质量差异的现象,另外电力标准也可以保证电力企业的安全生产。
[0003]但是电力行业国家标准领域知识专业性强、覆盖面广,知识和业务层级体系庞大,现阶段的电网领域知识体系构建主要以专家人工构建方式为主,存在人工和时间成本过于昂贵的问题;同时,国家标准条款数据内容冗长、句式复杂,通过有监督的实体关系抽取的方法,存在抽取质量过低和大量人工审核成本的问题。
[0004]实体关系抽取作为知识图谱构建的前置步骤,高效的实体关系抽取方法能够进一步推动电力行业标准管理的数字化转型,为标准的精准搜索、智能作业、领域知识图谱构建等典型应用场景功能提供技术支撑。同时降低电力行业标准管理基层人员负担,解决电力行业管理人员对标准条款知识获取困难、利用不便、应用不足的问题。
[0005]综上所述,对于电力行业国家标准需要一种能更加准确、更加适合电力标准数据的实体关系抽取方法。
技术实现思路
[0006]专利技术目的:本专利技术的目的是提供一种基于深度学习的电力标准实体关系抽取方法及装置,更准确、更高效、全面地获得电力标准 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的电力标准实体关系抽取方法,其特征在于,包括以下步骤:(1)数据预处理,进行数据归类并清洗电力标准条款中的无用数据;(2)获取电力标准条款文本的依存句法树,利用注意力图神经网络筛选依存关系,抽取电力技术标准条款的实体关系三元组;(3)利用置信度模型对抽取出来的三元组进行后处理过滤;(4)采用递进式抽取方法,从抽取出的三元组中构造出关系模板,凭借关系模板在文本中进行匹配从而发现新的关系。2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括:(1
‑
1)利用机器学习聚类算法,将电力标准条款归类,包括:将所要聚类的文本进行分词,然后使用停用词来筛查分词结果,若分词结果中有停用词表中的词则删除,最后将分词转为向量并通过计算向量之间的相似度,完成聚类;(1
‑
2)利用正则表达式匹配的方法,去除电力标准条款中的异常数据,所述异常数据是指电力标准条款中含有的一些格式化的信息。3.根据权利要求1所述的方法,其特征在于,所述步骤(2)包括:(2
‑
1)使用自然语言处理工具包获取电力标准条款文本的依存句法树;(2
‑
2)根据依存句法树构建依存关系邻接矩阵A和依存类别邻接矩阵T,其中依存关系邻接矩阵A用于存储两词之间是否存在依存关系,若两词之间存在关系则矩阵元素为1,否则为0;依存类别邻接矩阵T用于存储两词之间的依存关系类别;(2
‑
3)使用BERT模型作为编码器,提取电力文本序列的特征,得到表示文本序列的向量序列;(2
‑
4)基于词的BERT特征向量以及与其相关联的上下文词的依存关系和关系类型信息来构建编码向量,并引入注意力机制计算每个依存关系的权重,将权重分配给上下文特征,最后基于注意力图卷积神经网络的输出来预测两个实体之间的关系标签,两个实体及其之间的关系构成三元组。4.根据权利要求3所述的方法,其特征在于,所述注意力图卷积神经网络的处理包括:给定一个非结构化输入语句所述指的是标准内容文本,其中有n个词并让E1和E2表示中的两个实体,通过以下方式预测E1与E2之间的关系:其中表示的依存关系树,R是关系类型集合;p计算给定两个实体的特定关系的概率,f(
·
)表示注意力图卷积神经网络,而是以和为输入的注意力图卷积神经网络的输出。5.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,所述置信度模型针对电力数据从三个方面考察:实体对之间的距离、关系指示词与实体对的相对位置、关系指示词的词性;所述利用置信度模型对抽取出来的三元组进行后处理过滤包括:通过对电力标准语料的统计分析,为考察的各个置信度指标设置置信度分数,保留置信度分数高于指定阈值的关系三元组。
6.根据权利要...
【专利技术属性】
技术研发人员:郑倩,雍怡博,杨强,陈恭,袁葆,王军,钟天齐,姜海东,张涛,王倩,孙丽丽,张莹,管王宁,李澳澳,王思宁,
申请(专利权)人:国网智能电网研究院有限公司北京中电普华信息技术有限公司华北电力大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。