一种多场景的异构数据处理方法技术

技术编号:37645195 阅读:25 留言:0更新日期:2023-05-25 10:11
本发明专利技术提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明专利技术提升了异构数据融合的准确性。升了异构数据融合的准确性。升了异构数据融合的准确性。

【技术实现步骤摘要】
一种多场景的异构数据处理方法


[0001]本专利技术涉及文本数据处理
,尤其涉及一种多场景的异构数据处理方法。

技术介绍

[0002]随着大数据时代的到来,分散于不同应用场景下的数据可以被有效地融合起来,实现数据信息的集中管理,提高数据分析、数据检索等任务的性能。在数据推荐、数据检索等领域,会为特定领域或场景(例如电影领域、医学领域等)下的文本数据构建相应的知识图谱,通过将各场景下的知识图谱连接在一起实现数据融合。
[0003]不同应用场景下的数据之间具备异构性和冗余性,即不同应用场景下的数据存在结构不同、表达不同等问题,导致生成的不同场景的知识图谱之间也存在相当程度的异构性,在融合多场景的异构知识图谱时,容易出现数据冗余和数据冲突。因此,为了提升多场景异构数据的融合准确性,可以对不同场景下的知识图谱进行文本实体对齐,将对应同一对象的文本实体对齐,以降低融合数据中的数据冗余和数据冲突。然而,目前的知识图谱异构性过强,文本实体存在同含义不同表达以及同表达不同含义,知识图谱网络结构不同,甚至语言不同等问题,导致实体对齐的准确性难以保障。

技术实现思路

[0004]本专利技术提供一种多场景的异构数据处理方法,用以解决现有技术中知识图谱异构性过强且部分知识图谱存在缺失不完整的现象,导致实体对齐的准确性欠佳的缺陷。
[0005]本专利技术提供一种多场景的异构数据处理方法,包括:基于第一图神经网络,从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征;所述第一图神经网络是基于图卷积神经网络构建的;基于第二图神经网络,从所述第一知识图谱和所述第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;所述第二图神经网络是基于transE模型构建的;所述三元组包括两个文本实体以及连接所述两个文本实体的实体关系;融合所述第一知识图谱和所述第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于所述第一知识图谱中任一文本实体的第一实体表示与所述第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于所述第一实体对齐概率矩阵,确定所述第一知识图谱和所述第二知识图谱的对齐实体对,并基于所述对齐实体对融合所述第一知识图谱和所述第二知识图谱的数据;所述从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征,具体包括:图结构信息提取步骤:针对任一文本实体,基于所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体
的实体关系在上一网络层的图关系特征,确定所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,再融合各个邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,得到所述任一文本实体在当前网络层的图实体特征,并更新得到连接所述任一邻居文本实体与所述任一文本实体的实体关系在当前网络层的图关系特征;任一文本实体在首层网络层的图实体特征以及任一实体关系在首层网络层的图关系特征是初始化得到的;迭代步骤:重复所述图结构信息提取步骤,直至得到各个文本实体在最后一个网络层的图实体特征,并基于各个文本实体在各个网络层的图实体特征,确定所述各个文本实体的结构拓扑特征;所述从所述第一知识图谱和所述第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征,具体包括:基于第二图神经网络获取所述第一知识图谱和所述第二知识图谱的各三元组中头尾文本实体的第二实体表示以及实体关系的初始关系特征;将连接同一文本实体的实体关系的初始关系特征融合,得到连接所述同一文本实体的实体关系的关系特征;其中,任一文本实体的第二实体表示是所述第二图神经网络输出的表示所述任一文本实体的语义信息的向量,任一三元组中头文本实体的第二实体表示与实体关系的初始关系特征的向量和等于尾文本实体的第二实体表示,且各文本实体的第二实体表示满足相匹配的文本实体的第二实体表示之间距离小于预设值的约束。
[0006]根据本专利技术提供的一种多场景的异构数据处理方法,所述基于所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,确定所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,具体包括:融合所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,得到融合特征;基于连接所述任一邻居文本实体与所述任一文本实体的实体关系的方向以及不同方向对应的权重,对所述融合特征进行加权,得到所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征。
[0007]根据本专利技术提供的一种多场景的异构数据处理方法,所述更新得到连接所述任一邻居文本实体与所述任一文本实体的实体关系在当前网络层的图关系特征,具体包括:基于各类实体关系在当前网络层对应的关系变换矩阵,对连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征进行特征变换,得到连接所述任一邻居文本实体与所述任一文本实体的实体关系在当前网络层的图关系特征;其中,所述各类实体关系在当前网络层对应的关系变换矩阵是训练得到的。
[0008]根据本专利技术提供的一种多场景的异构数据处理方法,所述基于各个文本实体在各个网络层的图实体特征,确定所述各个文本实体的结构拓扑特征,具体包括:拼接任一文本实体在各个网络层的图实体特征,得到所述任一文本实体的图拼接实体特征;
基于线性变换矩阵对所述任一文本实体的图拼接实体特征进行线性变换,得到所述任一文本实体的结构拓扑特征。
[0009]根据本专利技术提供的一种多场景的异构数据处理方法,所述基于所述第一实体对齐概率矩阵,确定所述第一知识图谱和所述第二知识图谱的对齐实体对,具体包括:构建第二实体对齐概率矩阵后,将所述第一实体对齐概率矩阵和所述第二实体对齐概率矩阵进行融合,得到实体对齐概率融合矩阵,并基于所述实体对齐概率融合矩阵确定所述第一知识图谱和所述第二知识图谱的对齐实体对;其中,所述第二实体对齐概率矩阵是基于所述第一知识图谱中任一文本实体的第二实体表示与所述第二知识图谱中任一文本实体的第二实体表示之间的相似度构建得到的。
[0010]根据本专利技术提供的一种多场景的异构数据处理方法,所述第一图神经网络和所述第二图神经网络是基于如下步骤进行联合训练得到的:获取所述第一知识图谱和所述第二知识图谱的种子对齐实体对;基于第一图神经网络,从所述种子对齐实体对中各种子文本实体的邻居子图中获取对应种子文本实体的样本结构拓扑特征;基于第二图神经网络,从包含所述种子文本实体的三元组中获取连接所述种子文本实体的实体关系的样本关系特征;融合所述种子文本实体的样本结构拓扑特征和连接对应种子文本实体的实体关系的样本关系特征,得到所述种子文本实体的样本第一实体表示;基于种子对齐实体对中对齐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多场景的异构数据处理方法,其特征在于,包括:基于第一图神经网络,从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征;所述第一图神经网络是基于图卷积神经网络构建的;基于第二图神经网络,从所述第一知识图谱和所述第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;所述第二图神经网络是基于transE模型构建的;所述三元组包括两个文本实体以及连接所述两个文本实体的实体关系;融合所述第一知识图谱和所述第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于所述第一知识图谱中任一文本实体的第一实体表示与所述第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于所述第一实体对齐概率矩阵,确定所述第一知识图谱和所述第二知识图谱的对齐实体对,并基于所述对齐实体对融合所述第一知识图谱和所述第二知识图谱的数据;所述从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征,具体包括:图结构信息提取步骤:针对任一文本实体,基于所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,确定所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,再融合各个邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,得到所述任一文本实体在当前网络层的图实体特征,并更新得到连接所述任一邻居文本实体与所述任一文本实体的实体关系在当前网络层的图关系特征;任一文本实体在首层网络层的图实体特征以及任一实体关系在首层网络层的图关系特征是初始化得到的;迭代步骤:重复所述图结构信息提取步骤,直至得到各个文本实体在最后一个网络层的图实体特征,并基于各个文本实体在各个网络层的图实体特征,确定所述各个文本实体的结构拓扑特征;所述从所述第一知识图谱和所述第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征,具体包括:基于第二图神经网络获取所述第一知识图谱和所述第二知识图谱的各三元组中头尾文本实体的第二实体表示以及实体关系的初始关系特征;将连接同一文本实体的实体关系的初始关系特征融合,得到连接所述同一文本实体的实体关系的关系特征;其中,任一文本实体的第二实体表示是所述第二图神经网络输出的表示所述任一文本实体的语义信息的向量,任一三元组中头文本实体的第二实体表示与实体关系的初始关系特征的向量和等于尾文本实体的第二实体表示,且各文本实体的第二实体表示满足相匹配的文本实体的第二实体表示之间距离小于预设值的约束。2.根据权利要求1所述的多场景的异构数据处理方法,其特征在于,所述基于所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,确定所述任一邻居文本实
体在当前网络层传递给所述任一文本实体的关联特征,具体包括:融合所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,得到融合特征;基于连接所述任一邻居文本实体与所述任一文本实体的实体关系的方向以及不同方向对应的权重,对所述融合特征进行加权,得到所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征。3.根据权利要求1所述的多场景的异构数据处理方法,其特征在于,所述更新得到连接所述任一邻居文本实体与所述任一文本实...

【专利技术属性】
技术研发人员:曹扬李响仲恺谢红韬汪榕支婷祁纲程建润周伟黄铁淳
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1