The invention discloses an income identification method, device and computer readable storage medium, which relates to the field of data processing. Income recognition methods include: acquiring the information of the number of purchases of each characteristic commodity by the identified user; determining the income coefficient of the identified user according to the information of the number of purchases and the proportion of purchases of each characteristic commodity. Among them, the proportion information of purchases is the income of the total number of purchases of each characteristic commodity. The proportion of purchasing times of users in the preset income range, the information of purchasing times and the income coefficient of users to be identified are positively correlated with the proportion information of purchasing times; the income range of users to be identified is determined according to the income coefficient and the preset threshold. The embodiment of the present invention can determine the income range of the user to be identified according to the purchase habits of the user and the distribution of purchase times of the characteristic commodity among users in different income ranges. Thus, the invention can accurately identify income for sparse data.
【技术实现步骤摘要】
收入识别方法、装置和计算机可读存储介质
本专利技术涉及数据处理领域,特别涉及一种收入识别方法、装置和计算机可读存储介质。
技术介绍
近年来随着互联网科技的飞速发展,以互联网为载体的消费金融,借助金融科技的力量,呈现出了爆发式的增长。互联网金融不同于以往传统金融的一个重要特点在于其“在线”的特点,这就使得信贷人员很难使用传统的线下的方式去做金融产品的营销和风控。在新业务模式下的爆发式增长,互联网金融企业只能依靠大数据来判断用户的营销价值及其背后的风险。在这样的背景下,对用户的“人群画像”就变得至关重要了。而在通常的人群画像中,“收入”是与互联网金融各业务诉求最为紧密的特征之一了。因此,对用户收入特征的预测在互联网金融业务线条中,有着至关重要的作用。在相关技术中,主要采用以下几种方法来识别用户的收入水平。第一类方法为聚类算法,包括混合高斯模型、混合泊松模型等基于模型的无监督聚类算法,以及k平均算法等非基于模型的聚类算法等等。通过对用户进行分类后类别对应的收入水平来确定用户的收入水平。第二类方法为混合算法,例如先对训练数据的特征本身进行聚类,然后以降维后所聚的类为特征训练模型。
技术实现思路
专利技术人对相关技术进行分析后发现,用户电商行为数据的主要特征是:电商商品本身数量较大,但有收入属性识别价值的商品的使用人群却往往不大。这给使用现有算法来对用户人群进行性别识别带来困难。对于无监督聚类算法,由于商品的使用人群往往较小,所以其使用行为的概率分布往往不易准确推知。因而基于模型的无监督聚类算法的精度通常不能达到投放的要求。对于混合算法,同样会因为用户人群小,导致一开始 ...
【技术保护点】
1.一种收入识别方法,包括:获取待识别用户对每个特征商品的购买次数信息;根据所述购买次数信息和每种特征商品对应的购买次数比例信息,确定待识别用户的收入系数,其中,所述购买次数比例信息与每种特征商品的购买总次数中收入在预设收入范围内的用户的购买次数占比成正相关关系;根据所述收入系数和预设阈值,确定待识别用户的收入范围。
【技术特征摘要】
1.一种收入识别方法,包括:获取待识别用户对每个特征商品的购买次数信息;根据所述购买次数信息和每种特征商品对应的购买次数比例信息,确定待识别用户的收入系数,其中,所述购买次数比例信息与每种特征商品的购买总次数中收入在预设收入范围内的用户的购买次数占比成正相关关系;根据所述收入系数和预设阈值,确定待识别用户的收入范围。2.根据权利要求1所述的收入识别方法,其中,所述购买次数信息、待识别用户的收入系数与所述购买次数比例信息成正相关关系。3.根据权利要求2所述的收入识别方法,其中,所述根据所述购买次数信息和每种特征商品对应的购买次数比例信息,确定待识别用户的收入系数包括:构建包括多个待识别用户对每个特征商品的购买次数信息的购买次数信息矩阵;构建等式关系,在所述等式关系中,所述购买次数信息矩阵与收入系数向量的乘积等于购买次数比例信息向量,收入系数向量为未知数并且包括每个待识别用户的收入系数,购买次数比例信息向量为预先确定的并且包括每种特征商品对应的购买次数比例信息;采用压缩感知方法求解所述等式关系,获得收入系数向量的值,以确定每个待识别用户的收入系数。4.根据权利要求3所述的收入识别方法,还包括:采用训练数据中用户对每个特征商品的购买次数信息构建用于训练的购买次数信息矩阵;采用训练数据中用户的收入系数构建用于训练的收入系数向量;根据用于训练的购买次数信息矩阵与用于训练的收入系数向量的乘积获得购买次数比例信息向量。5.根据权利要求1~4中任一项所述的收入识别方法,其中,根据所述购买次数信息、每种特征商品的购买总次数中收入在第一预设收入范围内的用户的第一购买次数比例信息,确定待识别用户的第一收入系数,其中,所述待识别用户的第一收入系数与所述第一购买次数比例信息成正相关关系;根据所述第一收入系数和所述第一预设收入范围,确定待识别用户的第一收入范围;根据所述购买次数信息、每种特征商品的购买总次数中收入在第二预设收入范围内的用户的第二购买次数比例信息,确定待识别用户的第二收入系数,其中,第一收入范围包括第二预设收入范围,所述待识别用户的第二收入系数与所述第二购买次数比例信息成正相关关系;根据所述第二收入系数和所述第二预设收入范围,确定待识别用户的第二收入范围。6.根据权利要求1~4中任一项所述的收入识别方法,其中,所述根据所述收入系数和预设阈值,确定待识别用户的收入范围包括:在所述收入系数大于预设阈值的情况下,判定待识别用户的收入属于所述预设收入范围,其中,所述预设阈值属于0到1之间;在所述收入系数小于1与预设阈值之差的情况下,判定待识别用户的收入不属于所述预设收入范围。7.根据权利要求1~4中任一项所述的收入识别方法,还包括:根据特征商品的浏览次数、点击率、购买率的乘积,确定特征商品的购买次数信息。8.一种收入识别装置,包括:购买次数信息获取模块,被配置为获取待识别用户对每个特征商品的购买次数信息;收入系数确定模块,被配置为根据所述购买次数信息和每种特征商品对应的购买次数比例信息,确定待识别用户的收入系数,其中...
【专利技术属性】
技术研发人员:敖滨,程建波,彭南博,张瑞军,
申请(专利权)人:北京京东金融科技控股有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。