System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图数据处理,特别是涉及一种大规模数据的深层关系搜索方法、装置及搜索引擎。
技术介绍
1、随着互联网技术的迅猛发展,大规模数据快速生成并不断增长。大规模数据通常包含大量的实体和复杂的关系,以互联网支付数据为例,每天新增数据量可能高达百t,其中包含用户信息、商户信息、银行账户信息等等,如何根据特定的实体信息进行深度关联搜索,高效准确地抽取出重要实体及它们之间的深层关系,面临着一系列的困难和挑战。
2、当前,深层关系搜索主要基于图数据模型,通过构建实体和关系的知识图谱,采用广度优先搜索、深度优先搜索、最小生成树算法等算法,实现对复杂关系的深度搜索。然而,这些方法在处理大规模数据时面临着巨大的计算复杂度。因为大规模知识图谱中往往存在一些超级节点,即度值庞大的节点,其邻近节点数量远远高于其他节点的邻近节点数,比如商户交易图谱中,一个商户可能关联成千上万个账户,该商户就是一个超级节点。这种情况下,现有方法在执行深层关系搜索时,可能会出现服务超时或内存溢出等情况。因为超级节点周围有成千上万条边,基于该超级节点进行关联搜索,获取到大量搜索结果数据,将搜索结果数据传送到前端进行可视化看到的将是一团黑色,使真正有效的信息淹没在交错重叠的线条中;由此,现有深层关系搜索中缺少对搜索结果数据进行重要性筛选,造成前端基于搜索结果数据可视化效果差的问题。
技术实现思路
1、为此,本专利技术提供了一种大规模数据的深层关系搜索方法、装置及搜索引擎,以解决现有深层关系搜索中缺少对搜索结果数据进行
2、第一方面,提供了一种大规模数据的深层关系搜索方法,所述方法包括:
3、获取大规模数据并依据所述大规模数据得到实体关系图谱;所述实体关系图谱包括节点集合和边集合;
4、依据实体关系图谱得到多个弱连通分量;每个所述弱联通分量包括至少一个节点;每个所述节点仅属于一个弱连通分量;
5、确定搜索条件;所述搜索条件包括起始节点、节点阈值和最大关联层数;
6、依据所述搜索条件、实体关系图谱和弱连通分量得到目标弱连通分量;所述目标弱连通分量为搜索结果。
7、进一步地,所述依据所述搜索条件、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
8、若所述最大关联层数为空,则依据所述起始节点、节点阈值、实体关系图谱和弱连通分量得到目标弱连通分量;
9、若所述最大关联层数不为空,则依据所述起始节点、节点阈值、最大关联层数、实体关系图谱和弱连通分量得到目标弱连通分量。
10、进一步地,所述依据所述起始节点、节点阈值、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
11、依据所述起始节点得到对应的第一弱连通分量及所述弱连通分量中节点数量;
12、若所述节点数量小于等于所述节点阈值,则将所述第一弱连通分量作为目标弱连通分量;
13、若所述节点数量大于所述节点阈值,则依据节点特征属性对所述第一弱连通分量中除所述原始节点外的其他节点进行重要性降序排序得到节点排序;基于所述实体关系图谱依据所述节点排序中的前n-1个节点和初始节点构建第一实体关系图谱;其中,n为节点阈值;
14、若所述第一实体关系图谱为一个弱连通分量,则将所述第一实体关系图谱作为目标弱连通分量。
15、进一步地,所述方法还包括:
16、若所述第一实体关系图谱包含至少两个弱连通分量,则将所述第一实体关系图谱中的所有弱连通分量合并为一个弱连通图;
17、获取所述起始节点与所述节点排序中的前n-1个节点间的n-1个最短路径;将n-1个最短路径上的中间节点信息合并得到n-1个边属性;
18、将n-1个边属性更新到所述第一实体关系图谱得到所述目标弱连通分量。
19、进一步地,所述依据所述起始节点、节点阈值、最大关联层数、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
20、基于无索引近邻的图数据结构和弱连通分量,以所述起始节点为原心逐层关联直到关联层数为所述最大关联层数得到多个关联节点及所述关联节点对应的关联层;
21、统计所述关联节点的数量得到节点总数;
22、基于所述实体关系图谱依据所述节点总数和所述节点阈值得到目标弱连通分量。
23、进一步地,所述获取大规模数据并依据所述大规模数据得到实体关系图谱,包括:
24、获取大规模数据并从所述大规模数据中提取实体信息和关系信息;
25、基于所述实体信息、关系信息构建所述实体关系图谱,所述实体关系图谱为有向图或无向图。
26、进一步地,所述依据实体关系图谱得到多个弱连通分量,包括:
27、基于弱联通分量算法依据所述实体关系图谱得到多个弱联通分量;
28、为每个所述弱联通分量生成一个唯一标识符;将所述唯一标识符作为对应所述弱联通分量中节点的一个属性,以便通过所述唯一标识符确定节点的归属。
29、进一步地,还包括:
30、将所述目标弱连通分量作为搜索结果返回给前端,以便所述前端将符合所述搜索条件的深层关系显示出来。
31、第二方面,提供了一种大规模数据的深层关系搜索装置,所述装置包括:
32、获取模块,用于获取大规模数据并依据所述大规模数据得到实体关系图谱;所述实体关系图谱包括节点集合和边集合;
33、连通分量模块,用于依据实体关系图谱得到多个弱连通分量;每个所述弱联通分量包括至少一个节点;每个所述节点仅属于一个弱连通分量;
34、条件模块,用于确定搜索条件;所述搜索条件包括起始节点、节点阈值和最大关联层数;
35、搜索结果模块,用于依据所述搜索条件、实体关系图谱和弱连通分量得到目标弱连通分量;所述目标弱连通分量为搜索结果。
36、第三方面,提供了一种搜索引擎,所述搜索引擎应用了上述任一大规模数据的深层关系搜索方法。
37、本专利技术采用以上技术方案,至少具备以下有益效果:
38、提供了一种大规模数据的深层关系搜索方法、装置及搜索引擎,首先获取大规模数据并依据大规模数据得到实体关系图谱,依据实体关系图谱得到多个弱连通分量,每个弱联通分量包括至少一个节点,每个节点仅属于一个弱连通分量,依据起始节点、节点阈值、最大关联层数、实体关系图谱和弱连通分量得到目标弱连通分量,目标弱连通分量为搜索结果;通过起始节点、节点阈值、最大关联层数、实体关系图谱和弱连通分量得到搜索结果,可以降低计算复杂度,减少存储占用,提高深层关系搜索的效率,同时,在满足前端可视化要求的前提下,尽可能多地返回重要性高的节点及其连接关系,从而提高信息可视化的有效性。
39、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
本文档来自技高网...【技术保护点】
1.一种大规模数据的深层关系搜索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述搜索条件、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
3.根据权利要求2所述的方法,其特征在于,所述依据所述起始节点、节点阈值、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述依据所述起始节点、节点阈值、最大关联层数、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
6.根据权利要求1所述的方法,其特征在于,所述获取大规模数据并依据所述大规模数据得到实体关系图谱,包括:
7.根据权利要求1所述的方法,其特征在于,所述依据实体关系图谱得到多个弱连通分量,包括:
8.根据权利要求1所述的方法,其特征在于,还包括:
9.一种大规模数据的深层关系搜索装置,其特征在于,所述装置包括:
10.一种搜索引擎,其特征在于,所述搜索引擎应用了如权利要求1-
...【技术特征摘要】
1.一种大规模数据的深层关系搜索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述依据所述搜索条件、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
3.根据权利要求2所述的方法,其特征在于,所述依据所述起始节点、节点阈值、实体关系图谱和弱连通分量得到目标弱连通分量,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述依据所述起始节点、节点阈值、最大关联层数、实体关系图谱和...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。