数据处理的方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：26762890 阅读：15 留言：0更新日期：2020-12-18 23:17

本发明专利技术实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质，通过根据关联关系图生成每个用户账号的特征；使用每个用户账号的特征及对应标签作为训练数据训练逻辑回归模型；根据训练好的逻辑回归模型确定两个用户账号之间的关联权重，能够通过有监督的逻辑回归模型确定不同的关系类型对预测目标的影响从而确定权重，通过将两个用户账号间存在的关系类型转换为特征向量带入逻辑回归模型，根据逻辑回归结果确定两用户账号间存在的多种关系类型的关联权重，根据任意两个用户账号之间的关联权重发现指定用户账号所在的目标社区，能够增强社区划分的结果与目标的相关性，准确地发现目标所在的社区，准确地识别诈骗团伙和推荐信息。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理的方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及互联网
，尤其涉及一种数据处理的方法、装置、设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展，各电商平台，金融平台等互联网平台拥有的用户数量巨大。图是一种能表示相互连接的事物及其关系的形式，互联网平台中用户账号之间的关联关系可以通过图的方式表示和存储，包括节点和边两部分，节点是用户账号(或人)，边又称关系，表示节点之间的关联关系。通过社区发现的方法可以社区发现可以分析得到图中关联密切的节点，可以广泛应用于欺诈团伙识别、推荐等业务场景中。例如，通过社区发现方法的社区划分结果，可以发现指定目标所在的社区，从而发现与指定目标关联密切的用户账号(或人)。若指定目标是已知的诈骗用户账号，这样就可以发现诈骗团伙。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：现有的社区发现方法中，不区分图中边的类型，边的权重往往采用相等权重或者人为根据经验指定边的权重，导致社区发现方法的社区划分结果不准确，无法准确识别指定目标的紧密关联人群，无法准确识别出欺诈团伙和进行有效的信息推荐。
技术实现思路
本专利技术实施例提供一种数据处理的方法、装置、设备及计算机可读存储介质，用以解决现有的社区发现方法的社区划分结果不准确，无法准确识别指定目标的紧密关联人群，无法准确识别出欺诈团伙和进行有效的信息推荐的问题。第一方面，本专利技术实施例提供一种数据处理的方法，包括：获取用户账号的关联关系图，所述关联关...

【技术保护点】
1.一种数据处理的方法，其特征在于，包括：/n获取用户账号的关联关系图，所述关联关系图包含各用户账号之间的关联关系及关系类型；/n根据所述关联关系图，生成每个用户账号的特征；/n使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；/n根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重；/n根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区；/n对所述目标社区内的用户账号进行相应处理。/n

【技术特征摘要】
1.一种数据处理的方法，其特征在于，包括：
获取用户账号的关联关系图，所述关联关系图包含各用户账号之间的关联关系及关系类型；
根据所述关联关系图，生成每个用户账号的特征；
使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型；
根据训练好的所述逻辑回归模型，确定两个用户账号之间的关联权重；
根据任意两个用户账号之间的关联权重，发现指定用户账号所在的目标社区；
对所述目标社区内的用户账号进行相应处理。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标社区内的用户账号进行相应处理，包括：
向所述目标社区中的用户账号推送信息；
或者，
采用预设方式对所述目标社区中的用户账号进行处理。

3.根据权利要求1所述的方法，其特征在于，所述获取用户账号的关联关系图，包括：
采集各用户账号之间的关系数据；
根据各用户账号之间的关系数据，创建所述关联关系图。

4.根据权利要求1所述的方法，其特征在于，所述根据所述关联关系图，生成每个用户账号的特征，包括：
所述用户账号的特征为N维向量，所述N维向量中每个维度的分量与一种关系类型对应，N为所述关联关系图中的关系类型的总数；
对于所述用户账号的特征中任一维度的分量，若所述用户账号与其他任一用户账号存在对应关系类型的关联关系，则该维度的分量为1；若所述用户账号与其他用户账号均不存在对应关系类型的关联关系，则该维度的分量为0。

5.根据权利要求1所述的方法，其特征在于，所述使用每个用户账号的特征及对应标签作为训练数据，训练逻辑回归模型，包括：
根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度；
根据所述任意两种关系类型之间的关联强度，对关系类型进行筛选；
根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据；
使用所述新的训练数据进行模型训练，得到所述逻辑回归模型。

6.根据权利要求5所述的方法，其特征在于，所述根据每个用户账号的特征及对应标签，确定任意两种关系类型之间的关联强度，包括：
将所有用户账号的特征中任一维度的分量按照指定顺序排列，生成该维度对应的关系类型的特征，得到每个维度对应的关系类型的特征；
确定任意两种关系类型的特征的线性相关系数，得到任意两种关系类型之间的关联强度。

7.根据权利要求6所述的方法，其特征在于，所述根据所述任意两种关系类型之间的关联强度，对关系类型进行筛选，包括：
根据任意两种关系类型之间的关联强度，若存在两种关系类型之间的关联强度大于强度阈值，则分别计算这两种关系类型的特征与目标特征关联强度；
将这两种关系类型中与目标特征关联强度小的关系类型剔除；
其中，所述目标特征是由所有用户账号的标签按照所述指定顺序排列生成的。

8.根据权利要求7所述的方法，其特征在于，所述根据筛选后的关系类型，对每个用户账号的特征及对应标签构成的训练数据进行修正处理，得到新的训练数据...

【专利技术属性】
技术研发人员：陈振兴，王美青，
申请(专利权)人：京东数字科技控股股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人