System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据管理领域,尤其涉及一种基于异构数据资源图谱的电力数据治理方法。
技术介绍
1、随机电力智能化发展,国网公司数据资产不断增长,而且数据纷繁复杂,数据规模海量庞大、数据格式种类繁杂以及数据来源各式各样,难以进行资产化管理。在数据格式种类方面,除传统的结构化数据之外,文本数据、图像数据、语音数据、视频数据等半结构化数据。在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包括传感器、机器设备、网站网络、日志等技术产生的数据。数据资产呈现数据对象海量、多样、多元化等特点。因此,如何将繁杂的数据资源转化成数据资产为当下极为迫切的问题。
技术实现思路
1、为了解决上述问题,本专利技术的目的在于提供一种基于异构数据资源图谱的电力数据治理方法,能够有效整合不同数据源的信息,准确建模实体关系,高效查询和匹配数据,并通过可视化展示帮助用户更好地理解数据资源之间的关联关系。
2、为实现上述目的,本专利技术采用以下技术方案:
3、一种基于异构数据资源图谱的电力数据治理方法,包括以下步骤:
4、s1:从各种数据源中抽取实体信息,并预处理,包括实体对齐、实体融合和实体消歧;
5、s2:根据预处理后的实体,基于关系抽取模型,进行实体间的关系抽取,具体为:
6、s21:将预处理后的实体作为图的节点,通过预训练的词嵌入得到实体的初始表示;
7、s22:利用实体之间的关系信息构建图
8、s23:基于注意力机制的多头图神经网络构建关系抽取模型,通过学习节点之间的注意力权重来捕捉实体之间的语义关系:
9、使用多层图卷积网络gcn来更新实体的嵌入,每一层gcn通过下面的公式进行计算:
10、;
11、其中,是第l层的实体嵌入,a是邻接矩阵,d是度矩阵的对角矩阵,是第l层的权重矩阵,非线性激活函数;
12、在gcn的基础上引入注意力机制,捕捉实体间的关系,注意力层表示为:
13、;
14、其中,是节点u和节点v之间的注意力权重,a是学习的注意力参数,w是权重矩阵,和分别是节点u和节点v的特征; n u表示节点 u 的邻居节点集合,为邻居节点k的特征;
15、最后使用一个全连接层来预测实体对之间的关系类别:
16、;
17、其中,是关系分类的权重矩阵,是偏置项,是全连接层输出,为节点u的注意力聚合表示 ;
18、s3:根据抽取出的关系信息,建立实体间的联系,形成关系网络,构建电力资源图谱;
19、s4:基于电力资源图谱数据构建kd树,根据实体和关系的向量表示,递归地划分空间并构建kd树,选择一个维度,根据该维度对向量集合进行排序;找到中位数的向量作为当前节点的划分点,将向量集合划分为左右两个子集;递归地对左右子集进行构建kd树的操作,直到所有向量都被处理;
20、s5:根据用户查询的子图,通过kd树和启发式搜索进行top-k子图匹配查询;
21、s6:根据查询结果,进行可视化呈现,展示数据资源之间关联关系和跨城数据资源的情况。
22、进一步的,所述实体融合,具体如下:
23、首先,从不同数据源中提取实体,构建实体库,并基于实体库生成候选实体集合,候选实体表示为:
24、;
25、;
26、其中,、分别表示不同数据源的数据,、为对应的候选实体集合;表示实体抽取;
27、对于每个候选实体,将其表示为特征向量:
28、;
29、;
30、其中,、分别表示不同数据源中实体的特征向量,表示特征提取;
31、通过欧氏距离计算不同数据源中实体之间的相似度,衡量它们之间的匹配程度;
32、根据实体之间的相似度计算结果,选择最匹配的实体作为对齐结果,并对匹配结果进行整合:
33、 matchedentities=entityalignment(data source ,data target );
34、其中,matchedentities为匹配结果,包含了不同数据源中实体的对应关系;
35、对于匹配结果中的每一对对应实体,将它们的特征进行融合,以得到一个统一的实体特征表示:
36、 mergedfeature i =featurefusion(featuresource i ,featuretarget j );
37、其中,mergedfeaturei为实体i的融合特征, featuresource i和featuretargetj
38、分别为实体i在不同数据源中的特征向量; featurefusion表示融合操作;
39、最后,通过计算融合特征之间的相似度,选择最相似的实体进行合并,消除重复实体,建立唯一的实体表示。
40、进一步的,所述实体消歧,具体如下:
41、对于每个待消歧的实体,从实体库中生成候选实体集合,设 entities i为第 i个待消歧的实体, candidates i为第 i个候选实体集合;
42、对于每个待消歧的实体和候选实体,需要将其表示为特征向量,以便进行实体匹配,实体特征表示的过程表示为:
43、 feature i =featureextraction(entities i ) ;
44、 feature ij =featureextraction(candidates ij 本文档来自技高网...
【技术保护点】
1.一种基于异构数据资源图谱的电力数据治理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述实体融合,具体如下:
3.根据权利要求2所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述实体消歧,具体如下:
4.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述关系抽取模型的训练,具体如下:
5.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述S3具体为:
6.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述S5具体为:
7.根据权利要求6所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述S52,具体如下:
8.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述S6具体为:
【技术特征摘要】
1.一种基于异构数据资源图谱的电力数据治理方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述实体融合,具体如下:
3.根据权利要求2所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述实体消歧,具体如下:
4.根据权利要求1所述的一种基于异构数据资源图谱的电力数据治理方法,其特征在于,所述关系抽取模型的训练,具体如下:
【专利技术属性】
技术研发人员:林翰,潘建笠,陈智鹏,陈强,谢妙红,
申请(专利权)人:国网信通亿力科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。