数据处理的方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:26762890 阅读:15 留言:0更新日期:2020-12-18 23:17
本发明专利技术实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质,通过根据关联关系图生成每个用户账号的特征;使用每个用户账号的特征及对应标签作为训练数据训练逻辑回归模型;根据训练好的逻辑回归模型确定两个用户账号之间的关联权重,能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响从而确定权重,通过将两个用户账号间存在的关系类型转换为特征向量带入逻辑回归模型,根据逻辑回归结果确定两用户账号间存在的多种关系类型的关联权重,根据任意两个用户账号之间的关联权重发现指定用户账号所在的目标社区,能够增强社区划分的结果与目标的相关性,准确地发现目标所在的社区,准确地识别诈骗团伙和推荐信息。

【技术实现步骤摘要】
数据处理的方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及互联网
,尤其涉及一种数据处理的方法、装置、设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展,各电商平台,金融平台等互联网平台拥有的用户数量巨大。图是一种能表示相互连接的事物及其关系的形式,互联网平台中用户账号之间的关联关系可以通过图的方式表示和存储,包括节点和边两部分,节点是用户账号(或人),边又称关系,表示节点之间的关联关系。通过社区发现的方法可以社区发现可以分析得到图中关联密切的节点,可以广泛应用于欺诈团伙识别、推荐等业务场景中。例如,通过社区发现方法的社区划分结果,可以发现指定目标所在的社区,从而发现与指定目标关联密切的用户账号(或人)。若指定目标是已知的诈骗用户账号,这样就可以发现诈骗团伙。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有的社区发现方法中,不区分图中边的类型,边的权重往往采用相等权重或者人为根据经验指定边的权重,导致社区发现方法的社区划分结果不准确,无法准确识别指定目标的紧密关联人群,无法准确识别出欺诈团伙和进行有效的信息推荐。
技术实现思路
本专利技术实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质,用以解决现有的社区发现方法的社区划分结果不准确,无法准确识别指定目标的紧密关联人群,无法准确识别出欺诈团伙和进行有效的信息推荐的问题。第一方面,本专利技术实施例提供一种数据处理的方法,包括:获取用户账号的关联关系图,所述关联关系图包含各用户账号之间的关联关系及关系类型;根据所述关联关系图,生成每个用户账号的特征;使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重;根据任意两个用户账号之间的关联权重,发现指定用户账号所在的目标社区;对所述目标社区内的用户账号进行相应处理。第二方面,本专利技术实施例提供一种数据处理的方法,应用于互联网平台,所述互联网平台包括多个用户注册的用户账号,所述用户账号中存在至少一个对应指定类型的标签的指定用户账号,所述方法包括:获取所述互联网平台中所有用户账号的关联关系图,所述关联关系图包含各用户账号之间的关联关系及关系类型;根据所述关联关系图,生成所述关联关系图中每个用户账号的特征;使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重;根据任意两个用户账号之间的关联权重,进行社区划分,确定所述指定用户账号所在的目标社区;对所述目标社区内的用户账号进行相应处理。第三方面,本专利技术实施例提供一种数据处理的装置,包括:关联关系图获取模块,用于获取用户账号的关联关系图,所述关联关系图包含各用户账号之间的关联关系及关系类型;数据转换模块,用于根据所述关联关系图,生成每个用户账号的特征;模型训练模块,用于使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;权重确定模块,用于根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重;社区发现模块,用于根据任意两个用户账号之间的关联权重,发现指定用户账号所在的目标社区;处理实施模块,用于对所述目标社区内的用户账号进行相应处理。第四方面,本专利技术实施例提供一种数据处理的设备,包括:处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器运行所述计算机程序时实现上述任一方面所述的数据处理的方法。第五方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方面所述的数据处理的方法。本专利技术实施例提供的数据处理的方法、装置、设备及计算机可读存储介质,通过根据所述关联关系图,生成每个用户账号的特征;使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重,能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响,从而确定权重,通过将两个用户账号间存在的关系类型转换为0和1变量带入逻辑回归模型,根据逻辑回归结果确定两用户账号间存在的多种关系类型的累计权重,得到两用户账号间关联权重,进一步根据任意两个用户账号之间的关联权重,发现指定用户账号所在的目标社区,能够增强社区划分的结果与目标的相关性,能够准确地发现目标所在的社区,从而可以准确地进行诈骗团伙的识别和精准地信息推荐。附图说明图1为本专利技术实施例一提供的数据处理的方法流程图;图2为本专利技术实施例二提供的数据处理的方法流程图;图3为本专利技术实施例三提供的数据处理的装置的结构示意图;图4为本专利技术实施例五提供的数据处理的设备的结构示意图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。首先对本专利技术实施例所涉及的名词进行解释:图:包括节点和边,本实施例中,图中的每个节点代表一个用户(或用户账号),图中连接两个节点的边表示两个用户之间的关联关系,图中边的类型可以有多种。例如,用户账号A和用户账号B使用了相同的IP,则A节点和B节点之间有一条表示使用了相同IP的边;若A和B还使用了相同的地址,则A节点和B节点之间还可以有一条表示使用了相同地址的边。社区发现算法:通过关系网络发现社区结构的算法,可看作一种聚类算法,社区内部连接紧密,社区之间连接稀疏。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。本专利技术实施例至少可以应用于以下的应用场景:一种应用场景为欺诈团伙的识别:电商平台,金融平台等互联网平台拥有的用户数量巨大,其中可能存在涉嫌欺诈的用户和团伙,但是发现所有涉嫌欺诈的用户很难。对于已经发现的少数几个欺诈用户,通过本实施例提供的方法,根据各个用户之间的关联关系及确定的关联权重,通过社区发现方法,发现已知的欺诈用户所在社区,从而确定可能的欺诈团伙,进一步地可以将欺诈用户所在社区中的各个用户的信息推送给相应人员进行排查,或者,可以采用预设方式直接对将欺诈用户所在社区中的各个用户进行相应地处理,例如本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,包括:/n获取用户账号的关联关系图,所述关联关系图包含各用户账号之间的关联关系及关系类型;/n根据所述关联关系图,生成每个用户账号的特征;/n使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;/n根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重;/n根据任意两个用户账号之间的关联权重,发现指定用户账号所在的目标社区;/n对所述目标社区内的用户账号进行相应处理。/n

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:
获取用户账号的关联关系图,所述关联关系图包含各用户账号之间的关联关系及关系类型;
根据所述关联关系图,生成每个用户账号的特征;
使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型;
根据训练好的所述逻辑回归模型,确定两个用户账号之间的关联权重;
根据任意两个用户账号之间的关联权重,发现指定用户账号所在的目标社区;
对所述目标社区内的用户账号进行相应处理。


2.根据权利要求1所述的方法,其特征在于,所述对所述目标社区内的用户账号进行相应处理,包括:
向所述目标社区中的用户账号推送信息;
或者,
采用预设方式对所述目标社区中的用户账号进行处理。


3.根据权利要求1所述的方法,其特征在于,所述获取用户账号的关联关系图,包括:
采集各用户账号之间的关系数据;
根据各用户账号之间的关系数据,创建所述关联关系图。


4.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系图,生成每个用户账号的特征,包括:
所述用户账号的特征为N维向量,所述N维向量中每个维度的分量与一种关系类型对应,N为所述关联关系图中的关系类型的总数;
对于所述用户账号的特征中任一维度的分量,若所述用户账号与其他任一用户账号存在对应关系类型的关联关系,则该维度的分量为1;若所述用户账号与其他用户账号均不存在对应关系类型的关联关系,则该维度的分量为0。


5.根据权利要求1所述的方法,其特征在于,所述使用每个用户账号的特征及对应标签作为训练数据,训练逻辑回归模型,包括:
根据每个用户账号的特征及对应标签,确定任意两种关系类型之间的关联强度;
根据所述任意两种关系类型之间的关联强度,对关系类型进行筛选;
根据筛选后的关系类型,对每个用户账号的特征及对应标签构成的训练数据进行修正处理,得到新的训练数据;
使用所述新的训练数据进行模型训练,得到所述逻辑回归模型。


6.根据权利要求5所述的方法,其特征在于,所述根据每个用户账号的特征及对应标签,确定任意两种关系类型之间的关联强度,包括:
将所有用户账号的特征中任一维度的分量按照指定顺序排列,生成该维度对应的关系类型的特征,得到每个维度对应的关系类型的特征;
确定任意两种关系类型的特征的线性相关系数,得到任意两种关系类型之间的关联强度。


7.根据权利要求6所述的方法,其特征在于,所述根据所述任意两种关系类型之间的关联强度,对关系类型进行筛选,包括:
根据任意两种关系类型之间的关联强度,若存在两种关系类型之间的关联强度大于强度阈值,则分别计算这两种关系类型的特征与目标特征关联强度;
将这两种关系类型中与目标特征关联强度小的关系类型剔除;
其中,所述目标特征是由所有用户账号的标签按照所述指定顺序排列生成的。


8.根据权利要求7所述的方法,其特征在于,所述根据筛选后的关系类型,对每个用户账号的特征及对应标签构成的训练数据进行修正处理,得到新的训练数据...

【专利技术属性】
技术研发人员:陈振兴王美青
申请(专利权)人:京东数字科技控股股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1