本发明专利技术公开了一种关系强度确定方法和装置,涉及数据挖掘技术领域。其中的方法包括:在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度;根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。本发明专利技术基于随机游走方式,能够挖掘实体间的隐含关系,并且能够综合地度量实体间的关系强度。
【技术实现步骤摘要】
关系强度确定方法和装置
本专利技术涉及数据挖掘
,特别涉及一种关系强度确定方法和装置。
技术介绍
随着信息技术的发展,人、机构、事件等实体之间的关系变得越来越复杂。如何从大量数据中挖掘出实体之间的关系,成为研究的热点问题。专利技术人了解到的相关技术包括:如果两个实体间存在例如父子、朋友、同事等的直接关系,根据这两个实体间的例如通话次数和通话时间等行为信息,计算这两个实体间的直接关系强度。根据最短路径算法,计算存在间接关系的两个实体间的间接关系强度。
技术实现思路
专利技术人发现,相关技术要么无法反映实体间隐含的关系及其强度,要么隐含关系强度由于根据一条路径产生导致比较片面。本专利技术实施例所要解决的一个技术问题是:挖掘实体间的隐含关系,并且综合地度量实体间的关系强度。根据本专利技术的一个方面,提出一种关系强度确定方法,包括:在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度;根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。可选地,一次随机游走过程包括:当游走步数不大于预设的最大游走步数时,根据当前点所附着的边的权值,计算从当前点选择当前点所附着的每个边的概率;将当前点所附着的每个边顺序映射到预设区间内的一个子区间上,子区间的长度等于边对应的概率;从所述预设区间中取一个随机数,选择所述随机数所在的子区间对应的边,游走点从当前点移动到被选中边的另一端,游走步数加1;重复前述随机游走过程,直至游走步数大于预设的最大游走步数,一次随机游走过程结束。可选地,从当前点选择当前点所附着的每个边的概率为:当前点所附着的每个边的权值与当前点所附着的所有边的权值和之间的比值。可选地,所述最大游走步数根据所述连通子图中边的数量确定。可选地,所述实体关系图中的点包括一个指向点自身的边,所述指向点自身的边的权值为:该点所附着的所有边的权值的平均值。可选地,所述随机游走次数根据所述连通子图中节点的数量确定。可选地,初始点与目标点之间的综合关系强度为:根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数所确定的随机游走过程中游走点在目标点停留次数的均值。根据本专利技术的另一个方面,提出一种关系强度确定装置,包括:随机游走模块,用于在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度;强度确定模块,用于根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。根据本专利技术的再一个方面,提出一种关系强度确定装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述的关系强度确定方法。根据本专利技术的又一个方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的关系强度确定方法。本专利技术基于随机游走方式,能够挖掘实体间的隐含关系,并且能够综合地度量实体间的关系强度。附图说明下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本专利技术,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术关系强度确定方法一个实施例的流程图。图2为本专利技术关系强度确定方法另一个实施例的流程图。图3A为本专利技术实体关系图G的一个示例的示意图。图3B为图3A所示实体关系图G添加指向点自身的边后的示意图。图4为本专利技术关系强度确定装置一个实施例的结构示意图。图5为本专利技术关系强度确定装置另一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。图1为本专利技术关系强度确定方法一个实施例的流程图。如图1所示,该实施例的方法10包括:步骤110,根据实体间的关系及关系强度构建实体关系图,并将实体关系图划分为若干个相互之间不连通的连通子图。其中,实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度。实体关系图为无向图,任意两点之间最多有一条没有方向的边。可选地,实体关系图中的点还可以包括一个指向点自身的边。从而,增大游走点出现在离自身点更近的点的概率。指向点自身的边的权值例如可以设置为:该点所附着的所有边的权值的平均值。步骤120,在实体关系图的任意一个连通子图中游走点从初始点开始随机游走,并随机游走预设次数。其中,如果需要确定vi点和vj点之间的综合关系强度,那么,初始点为vi点,目标点为vj点。其中,一次随机游走过程包括:首先,当游走步数不大于预设的最大游走步数时,根据当前点所附着的边的权值,计算从当前点选择当前点所附着的每个边的概率,该概率例如可以为:当前点所附着的每个边的权值与当前点所附着的所有边的权值和之间的比值。接着,将当前点所附着的每个边顺序映射到预设区间内的一个子区间上,子区间的长度等于边对应的概率。其中的预设区间例如可以是[0,1)。然后,从预设区间中取一个随机数,选择随机数所在的子区间对应的边,游走点从当前点移动到被选中边的另一端,游走步数加1。重复前述随机游走过程,直至游走步数大于预设的最大游走步数,一次随机游走过程结束。其中,最大游走步数(设为m)根据连通子图中边的数量确定,例如,m可以设置为连通子图的边的数量(包括已经添加的指向自身的边)乘以参数μ,其中μ越小,其他各个点与游走点之间的关系强度越与游走点有关,μ越大,其他各个点与游走点之间的关系强度越与游走点无关而与连通子图的结构有关,例如,μ可设置为1。其中,随机游走次数(设为s)根据连通子图中节点的数量确定。其中,s越大,统计次数越多,游走点和其他各个点的关系强度越趋近于一个稳定值,计算越准确,例如,s可设置为连通子图中节点的数量。步骤130,根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。其中,初始点与目标点之间的综合关系强度为:根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数所确定的随机游走过程中游走点在目标点停留次数的均值,该均值可以通过随机游走过程中游走点在目标点停留的总次数与随机游走次数的比值得到。本实施例的随机游走方式,游走点所能到达的任意目标点均认为与初始点存在关系,从而能够挖掘实体间的隐含关系。并且,游走点通过随机选择地多条路径从初始点到达目标点,因而通过每次随机游走过程中游走点在目标点停留的次数确定出的初始点与目标点之间的关系强度,能够综合地度量实体间的关系强度。图2为本专利技术关系强度确定方法另一个实施例的流程图。如图2所示,该实施例的方法20包括:步骤21,初始化过程。步骤211:根据实体间的关系及关系强度构建实体关系图G=(V,E),其中,实体关系图G中的点V表示实体,V={v1,…,vn}表示实体关系图G中的有v1,…,vn共n个点,对应n个实体,实体关系图G中的本文档来自技高网...
【技术保护点】
一种关系强度确定方法,包括:在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度;根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。
【技术特征摘要】
1.一种关系强度确定方法,包括:在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实体关系图中的点表示实体,边表示实体之间的直接关系,边的权值表示实体之间直接关系的强度;根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数,确定初始点与目标点之间的综合关系强度。2.如权利要求1所述的方法,其中,一次随机游走过程包括:当游走步数不大于预设的最大游走步数时,根据当前点所附着的边的权值,计算从当前点选择当前点所附着的每个边的概率;将当前点所附着的每个边顺序映射到预设区间内的一个子区间上,子区间的长度等于边对应的概率;从所述预设区间中取一个随机数,选择所述随机数所在的子区间对应的边,游走点从当前点移动到被选中边的另一端,游走步数加1;重复前述随机游走过程,直至游走步数大于预设的最大游走步数,一次随机游走过程结束。3.如权利要求2所述的方法,其中,从当前点选择当前点所附着的每个边的概率为:当前点所附着的每个边的权值与当前点所附着的所有边的权值和之间的比值。4.如权利要求2所述的方法,其中,所述最大游走步数根据所述连通子图中边的数量确定。5.如权利要求1所述的方法,其中,所述实体关系图中的点包括一个指向点自身的边,所述指向点自身的边的权值为:该点所附着的所有边的权值的平均值。6.如权利要求1所述的方法,其中,所述随机游走次数根据所述连通子图中节点的数量确定;或者,初始点与目标点之间的综合关系强度为:根据随机游走次数以及每次随机游走过程中游走点在目标点停留的次数所确定的随机游走过程中游走点在目标点停留次数的均值。7.一种关系强度确定装置,包括:随机游走模块,用于在实体关系图的任意一个连通子图中,游走点从初始点开始随机游走,并随机游走预设次数,所述实...
【专利技术属性】
技术研发人员:束博,
申请(专利权)人:北京天广汇通科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。