基于深度学习与图论的水泥领域文本实体-关系联合抽取方法、装置及存储介质制造方法及图纸

技术编号：42375464 阅读：3 留言：0更新日期：2024-08-16 14:59

本发明专利技术涉及一种基于深度学习与图论的水泥领域文本实体‑关系联合抽取方法、装置及存储介质，其中方法包括：步骤S1：对输入的自然语言文本进行词嵌入处理得到词序列；步骤S2：提取每个单词的特征向量；步骤S3：对于每个单词，分别生成其他单词作用于该单词的第一权重；步骤S4：生成其他单词作用于单词的第二权重，并将第一权重和第二权重求和得到其他单词作用于该单词的权重初值；步骤S5：基于由各单词对其他单词的权重初值形成初始邻接矩阵；步骤S6：对各单词的特征向量进行增强处理，计算注意力分数并修改初始邻接矩阵得到目标邻接矩阵；步骤S7：基于得到的目标邻接，得到融合有邻接节点信息的特征向量；步骤S8：将子序列首尾两个单词的特征向量作为子序列的特征；步骤S9：将两个子序列的特征输入至分析模型中得到两个子序列的关系。与现有技术相比，本发明专利技术具有准确率高等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及水泥领域文本实体-关系联合抽取领域，尤其是涉及一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法、装置及存储介质。

技术介绍

1、目前，已有一定数量的成熟的实体关系抽取算法得到应用，对于这些算法，做出如下概述：1、按模型训练数据的标注情况，可分为有监督模型、半监督模型和无监督模型，其中有监督模型是表现最好且研究最深入的，半监督模型也取得了一定进展。2、按模型结构，可分为流水线模型与联合模型两类，前者实现思路简单，将实体识别与关系抽取分作两个子任务串联进行；后者则将两个子任务并联，使用一个模型解决两个子问题；目前，多数研究者认为，联合学习模型可以更好地避免误差累积，具有更高研究价值。

2、现有技术中，联合学习模型大多数通过两个词之间的相似度作为词间特征向量，再结合一些词性来生成关系抽取，然而这种方式下对一些复杂长文本的适应性较差，只能应用于一些日常说明性的文档，对于诸如水泥材料等专业技术文档的准确率较低，或者需要大量的训练集数据。

技术实现思路

1、本专利技术的目的就是为了提供一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法、装置及存储介质。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，包括：

4、步骤s1：对输入的自然语言文本进行词嵌入处理得到词序列；

5、步骤s2：提取每个单词的特征向量；

6、步骤s3：对于

7、步骤s4：对于每个单词，基于其他单词的特征向量与该单词的特征向量的距离，生成其他单词作用于该单词的第二权重，并将第一权重和第二权重求和得到其他单词作用于该单词的权重初值；

8、步骤s5：基于由各单词对其他单词的权重初值形成初始邻接矩阵；

9、步骤s6：对各单词的特征向量进行增强处理，计算注意力分数并修改初始邻接矩阵得到目标邻接矩阵；

10、步骤s7：基于得到的目标邻接，对增强后的单词的特征向量进行加权求和，得到融合有邻接节点信息的特征向量；

11、步骤s8：对单词进行重组，得到多个子序列，并将子序列首尾两个单词的特征向量作为子序列的特征；

12、步骤s9：将两个子序列的特征输入至分析模型中得到两个子序列的关系。

13、所述词嵌入处理的过程采用bert。

14、所述步骤s3中，两个单词的距离越大，第一权重越小，且第一权重的取值范围为[0,1]。

15、所述步骤s4，两个单词的特征向量的距离为特征向量的欧氏距离。

16、所述第二权重具体为：

17、

18、其中：wsimilarity[i,j]为第j个单词对第i个单词的第二权重，x[i,p]为第i个单词在维度p上的特征值，x[j,p]为第j个单词在维度p上的特征值，d为单词的向量特征的维度，n为单词总数，p为遍历词向量所有特征。

19、所述步骤s6具体包括：

20、步骤s61：对各单词的特征向量进行线性变换；

21、步骤s62：对任意两个单词经过线性变换的特征向量进行拼接，得到两个单词的注意力分数；

22、步骤s63：基于得到的注意力分数和第一阈值对邻接矩阵进行修改得到目标邻接矩阵，其中，所述第一阈值由训练学习得到；

23、步骤s64：对目标邻接矩阵进行归一化处理。

24、所述融合有邻接节点信息的特征向量为：

25、

26、其中：oi为融合有邻接节点信息的第i个单词的特征向量，σ(·)为sigmoid激活函数，αij为目标邻接矩阵中第i行第j列的元素，为经过线性变换的第i个单词的特征向量，为

27、所述分析模型的损失函数包括交叉熵损失函数、对称性损失函数和依赖性损失函数。

28、一种基于深度学习与图论的水泥领域文本实体-关系联合抽取装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如上述的方法。

29、一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如上述的方法。

30、与现有技术相比，本专利技术具有以下有益效果：可以对复杂长文本具有比较准确的，可以在小样本下得到比较准确的关系抽取效果。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述词嵌入处理的过程采用BERT。

3.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述步骤S3中，两个单词的距离越大，第一权重越小，且第一权重的取值范围为[0,1]。

4.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述步骤S4，两个单词的特征向量的距离为特征向量的欧氏距离。

5.根据权利要求4所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述第二权重具体为：

6.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述步骤S6具体包括：

7.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述融合有邻接节点信息的特征向量为：

8.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述分析模型的损失函数包括交叉熵损失函数、对称性损失函数和依赖性损失函数。

9.一种基于深度学习与图论的水泥领域文本实体-关系联合抽取装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的方法。

...

【技术特征摘要】

1.一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述词嵌入处理的过程采用bert。

3.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述步骤s3中，两个单词的距离越大，第一权重越小，且第一权重的取值范围为[0,1]。

4.根据权利要求1所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述步骤s4，两个单词的特征向量的距离为特征向量的欧氏距离。

5.根据权利要求4所述的一种基于深度学习与图论的水泥领域文本实体-关系联合抽取方法，其特征在于，所述第二权重具体为：

6.根据权利要求...

【专利技术属性】
技术研发人员：郭玉臣，郭晓潞，林子然，蒋思齐，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人