System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图计算的数据挖掘模型训练方法、挖掘方法及系统技术方案_技高网

基于图计算的数据挖掘模型训练方法、挖掘方法及系统技术方案

技术编号:41742235 阅读:5 留言:0更新日期:2024-06-19 13:02
本发明专利技术提供一种基于图计算的数据挖掘模型训练方法、挖掘方法及系统,包括:构建训练集,该训练集由百万级节点的大规模图数据组成,采用训练集训练得到基于图神经网络的数据挖掘模型,该数据挖掘模型包括网络数据分析模块、关键路径分析模块以及脆弱子图识别模块,采用关键节点识别、抗毁性分析、PageRank和漏洞威胁中的一种算法或多种混合算法计算图数据各节点的节点特征,进行数据挖掘推理,以实现关键节点、关键路径和关键子图的提取。本发明专利技术能够对百万级节点的大规模图数据进行快速挖掘推理,以获取其关键节点、关键路径和关键子图,极大提升了对百万级数据的信息挖掘能力,具备高效性、准确性和综合性。

【技术实现步骤摘要】

本专利技术涉及知识图谱,尤其涉及一种基于图计算的数据挖掘模型训练方法、挖掘方法及系统


技术介绍

1、为了挖掘大数据中的价值,涌现了许多不同的技术,图计算是其中一个重要的技术。图计算(graph processing)是将数据按照图的方式建模,以获得以往用扁平化的视角很难得到的结果。社交网络中的朋友关系图、互联网中网页的链接关系等许多大数据均呈现出图的结构,图结构很好地表达了数据之间的关联性,而关联性计算是大数据计算的核心——通过获得数据的关联性,可以从很多的海量数据中抽取有用的信息。

2、传统的挖掘技术中,受限于特定领域与应用场景,适应性较差,同时面对百万级节点的数据,挖掘效率低、挖掘能力较弱且准确率低。


技术实现思路

1、鉴于此,本专利技术实施例提供了一种基于图计算的数据挖掘模型训练方法、挖掘方法及系统,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术针对百万级图数据挖掘效率低、挖掘能力弱且准确率低的问题。

2、一方面,本专利技术提供了一种基于图计算的数据挖掘模型训练方法,所述方法包括以下步骤:

3、获取训练样本集,所述训练样本集包含多个样本,每个样本包括待挖掘的图数据的节点数、边数、节点标签信息、边标签信息以及经预设图神经网络分割得到的第一预设数量个节点的分割图;所述节点标签信息包括各节点表示的类型以及所有节点类型的数量,所述边标签信息包括各边的类型以及所有边类型的数量;

4、获取初始挖掘模型,所述初始挖掘模型包括网络数据分析模块、关键路径分析模块以及脆弱子图识别模块;所述网络数据分析模块、所述关键路径分析模块以及所述脆弱子图识别模块均包括图卷积神经网络;

5、所述网络数据分析模块利用预设计算函数计算得到所述图数据各节点的节点特征,所述预设计算函数为关键节点识别函数、抗毁性分析函数、pagerank函数和漏洞威胁函数中的一种或多种组合;根据对应预设计算函数得到的节点特征按照预设排序方法对各节点进行排序,输出靠前的第二预设数量个节点数,得到所述图数据的关键节点;

6、所述关键路径分析模块获取添加有所述节点特征的各样本,采用第一预设遍历方法遍历所述分割图,计算各边被遍历经过的次数,获取次数大于预设频繁阈值的边,构建所述图数据的关键路径;

7、所述脆弱子图识别模块获取添加有所述节点特征的各样本,采用第二预设遍历方法遍历所述分割图,计算各节点和各边被遍历经过的次数,得到相应的第一频度值,移除所述第一频度值小于预设最小支持度的节点和边;将剩余的节点和边分别按照第一频度值排序,并设置标号;各边按照各节点的标号进行深度优先遍历,再次计算得到各边的第二频度值,获取第二频度值大于所述预设最小支持度的边,构建脆弱子图;将所述脆弱子图的节点输入预训练得到的分类器,判断各节点是否为所述脆弱子图的节点,将判断为是的节点构建得到所述图数据的关键子图;

8、所述初始挖掘模型将所述关键节点、所述关键路径和所述关键子图作为所述图数据的关键数据输出;

9、采用所述训练样本集对所述初始挖掘模型训练,得到最终的基于图计算的的数据挖掘模型。

10、在本专利技术的一些实施例中,每个样本包括待挖掘的图数据的节点数、边数、节点标签信息、边标签信息以及经预设图神经网络分割得到的第一预设数量个节点的分割图,还包括:

11、将所述预设图神经网络顶点分割为预设规模和数量的非重叠群组;

12、利用所述非重叠群组分割所述图数据,以得到所述分割图。

13、在本专利技术的一些实施例中,所述网络数据分析模块利用预设计算函数计算得到所述图数据各节点的节点特征,所述预设计算函数为关键节点识别函数、抗毁性分析函数、pagerank函数和漏洞威胁函数中的一种或多种组合,包括:

14、当所述预设计算函数为关键节点识别函数时,计算所述图数据中各节点的节点度和聚类系数,将所述节点度和所述聚类系数作为所述节点特征;

15、当所述预设计算函数为抗毁性分析函数时,获取所述分割图中连通的最大子图,根据预设的连通性最小切割算法得到能够切开所述最大子图的节点,并将能够切开所述最大子图的节点标记为1,其余节点标记为0;根据预设的社交影响力最大化算法计算所述分割图中各节点的网络传播影响力;将所述网络传播影响力作为所述节点特征;

16、当所述预设计算函数为pagerank函数时,根据所述pagerank函数计算所述分割图中各节点的重要度;将所述重要度作为所述节点特征;

17、当所述预设计算函数为漏洞威胁函数时,根据随机游走算法计算所述分割图中各节点被游走到的次数;将所述次数作为所述节点特征。

18、在本专利技术的一些实施例中,根据对应预设计算函数得到的节点特征按照预设排序方法对各节点进行排序,还包括:

19、当所述预设计算函数为一种时,直接对得到的相应节点特征进行排序;

20、当所述预设计算函数为多种函数组合时,按照预设顺序对样本依次采用多种函数计算得到相应的多种节点特征,并根据多种节点特征的排序进行整体排序。

21、在本专利技术的一些实施例中,采用第一预设遍历方法遍历所述分割图,计算各边被遍历经过的次数,获取次数大于预设频繁阈值的边,构建所述图数据的关键路径,还包括:

22、若任一条边有一个能够连接到其他所有节点的节点,则表示该边被遍历经过的次数大于预设频繁阈值的边,并将所有满足的节点构建集合;将所述集合中满足预设条件的节点构建支配集,并以最低平均成对距离的代价连接所述支配集中满足预设条件的节点,得到所述关键路径;所述预设条件为任一节点与另一节点是邻居,且之间有边。

23、在本专利技术的一些实施例中,以最低平均成对距离的代价连接所述支配集中满足预设条件的节点,还包括:

24、采用添加和/或删除节点的方法降低平均成对距离的代价。

25、在本专利技术的一些实施例中,采用第二预设遍历方法遍历所述分割图,所述第二预设遍历方法采用深度优先搜索策略的gspan算法。

26、本专利技术还提供一种基于图计算的数据挖掘方法,所述方法包括以下步骤:

27、获取待挖掘的图数据;

28、将所述图数据输入如上文中基于图计算的数据挖掘模型训练方法得到的基于图计算的数据挖掘模型,挖掘所述图数据的关键数据;所述关键数据包括关键节点、关键路径以及关键子图。

29、本专利技术还提供一种基于图计算的数据挖掘系统,所述系统包括:

30、数据预处理模块,用于获取待挖掘的图数据的节点数、边数、节点标签信息、边标签信息以及经预设图神经网络分割得到的第一预设数量个节点的分割图;所述节点标签信息包括该节点表示的类型以及所有节点类型的数量,所述边标签信息包括该边的类型以及所有边类型的数量;

31、基于图计算的数据挖掘模型,用于输出所述图数据的关键数据,所述关键数据包括关键节点、关键路径以及关键子图;所述基于图计算的数本文档来自技高网...

【技术保护点】

1.一种基于图计算的数据挖掘模型训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,每个样本包括待挖掘的图数据的节点数、边数、节点标签信息、边标签信息以及经预设图神经网络分割得到的第一预设数量个节点的分割图,还包括:

3.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,所述网络数据分析模块利用预设计算函数计算得到所述图数据各节点的节点特征,所述预设计算函数为关键节点识别函数、抗毁性分析函数、PageRank函数和漏洞威胁函数中的一种或多种组合,包括:

4.根据权利要求3所述的基于图计算的数据挖掘模型训练方法,其特征在于,根据对应预设计算函数得到的节点特征按照预设排序方法对各节点进行排序,还包括:

5.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,采用第一预设遍历方法遍历所述分割图,计算各边被遍历经过的次数,获取次数大于预设频繁阈值的边,构建所述图数据的关键路径,还包括:

6.根据权利要求5所述的基于图计算的数据挖掘模型训练方法,其特征在于,以最低平均成对距离的代价连接所述支配集中满足预设条件的节点,还包括:

7.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,采用第二预设遍历方法遍历所述分割图,所述第二预设遍历方法采用深度优先搜索策略的gSpan算法。

8.一种基于图计算的数据挖掘方法,其特征在于,所述方法包括以下步骤:

9.一种基于图计算的数据挖掘系统,其特征在于,所述系统包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于图计算的数据挖掘模型训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,每个样本包括待挖掘的图数据的节点数、边数、节点标签信息、边标签信息以及经预设图神经网络分割得到的第一预设数量个节点的分割图,还包括:

3.根据权利要求1所述的基于图计算的数据挖掘模型训练方法,其特征在于,所述网络数据分析模块利用预设计算函数计算得到所述图数据各节点的节点特征,所述预设计算函数为关键节点识别函数、抗毁性分析函数、pagerank函数和漏洞威胁函数中的一种或多种组合,包括:

4.根据权利要求3所述的基于图计算的数据挖掘模型训练方法,其特征在于,根据对应预设计算函数得到的节点特征按照预设排序方法对各节点进行排序,还包括:

5.根据权利要求1所述的基于图计算的数据挖掘模...

【专利技术属性】
技术研发人员:方远丁乙李荣宽周高峰方正张广庆沙凤杰卢德兼王静静
申请(专利权)人:电科云北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1