目标类型用户的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23191531 阅读:14 留言:0更新日期:2020-01-24 16:29
本发明专利技术实施例提供了一种目标类型用户的识别方法、装置、电子设备及存储介质,方法包括:将待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;用户识别模型为:预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;获取模型输出的第一预测概率;将待识别用户的用户行为特征和第二变量值输入到用户识别模型中,获取模型输出的第二预测概率;判断第一预测概率与第二预测概率的差值是否大于预设的阈值;如果是,则确定待识别用户为目标类型用户。可见,应用本发明专利技术实施例,可以识别出目标类型用户,采集的样本较全面,对目标类型用户的识别较准确。

Identification method, device, electronic equipment and storage medium of target type user

【技术实现步骤摘要】
目标类型用户的识别方法、装置、电子设备及存储介质
本专利技术涉及信息处理的
,特别是涉及一种目标类型用户的识别方法、装置、电子设备及存储介质。
技术介绍
目前,很多行业领域都采用大数据处理对商品信息、业务信息及用户信息的不同类型的数据进行处理。其中,从海量的用户信息数据中,识别出某目标类型的用户是对用户信息进行处理中的一个重要内容。相关技术中,可以先从大量的用户信息中,获取待识别用户的用户行为数据,从待识别用户的用户行为数据中提取用户行为特征,将待识别用户的用户行为特征输入到按目标类型预设的二分类模型中,判断出该待识别用户是否是目标类型用户。但是,由于在训练二分类模型时所采集的样本是无规律的,导致采集的样本不够全面。因此相关技术中对目标类型用户的识别不够准确。
技术实现思路
本专利技术实施例的目的在于提供一种目标类型用户的识别方法、装置、电子设备及存储介质,以较准确的识别出目标类型用户。具体技术方案如下:第一方面,本专利技术提供一种目标类型用户的识别方法,所述方法包括:获得待识别用户的用户行为数据;从所述用户行为数据中,提取所述待识别用户的用户行为特征;将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型UpliftModel;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;获取用户识别模型输出的用户执行所述目标行为的第一预测概率;将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;获取用户识别模型输出的用户执行所述目标行为的第二预测概率;计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;判断所述条件预测概率是否大于预设的阈值;如果是,则确定所述待识别用户为目标类型用户。可选的,所述用户识别模型的训练过程包括:将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;如果未收敛,则调整当前初始用户识别模型的模型参数,返回所述将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率的步骤。可选的,所述当前初始用户识别模型的模型函数为:其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;所述预设的损失函数为:cost(hθ(x),y)=Σ(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λΣ(|α|+|β|+|γ|+|δ|);其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。可选的,所述方法,还包括:获得除去数据集中构成训练样本集的剩余的各个样本,构成测试样本集;所述测试样本集中包含实验组测试样本和对照组测试样本;分别将测试样本集中的各个样本的用户行为特征和第一变量值,输入到所述训练完成的用户识别模型;获得所述训练完成的用户识别模型输出的用户执行目标行为的第一预测概率;将测试样本集中的各个样本的用户行为特征和第二变量值,输入到所述训练完成的用户识别模型;获得所述训练完成的用户识别模型输出的用户执行所述目标行为的第二预测概率;将每个样本的第一预测概率和第二预测概率之差作为测试样本集中的各个样本在只有满足预设条件的情况下,用户执行目标行为的各个条件测试预测概率;将所述各个测试预测概率,按照从高到低的顺序进行排序,获得条件测试概率序列;基于所述条件测试概率序列中的每个实验组测试样本和对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确;如果是,则将所述训练完成的用户识别模型作为最终训练好的用户识别模型;如果否,则继续对该训练完成的用户识别模型进行训练。可选的,所述基于所述条件测试概率序列中的每个实验组测试样本或对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确的步骤,包括:按照预设的每组中包含样本的个数,将所述条件测试概率序列分组,获得各组条件测试概率序列;根据每组条件测试概率序列中各个样本是否执行目标行为的真实结果,计算每组条件测试概率序列中真实结果为执行目标行为的各个样本的个数与该组中样本的总个数的比值作为正样本率;判断各组条件测试概率序列的正样本率是否呈下降趋势;如果是,则计算每组条件测试概率序列中实验组测试样本的正样本率和对照组测试样本的正样本率;判断条件测试概率序列中预设组别中的实验组测试样本的正样本率是否大于对照组测试样本的正样本率。第二方面,本专利技术提供一种目标类型用户的识别装置,所述装置包括:用户行为数据获得单元,本文档来自技高网...

【技术保护点】
1.一种目标类型用户的识别方法,其特征在于,所述方法包括:/n获得待识别用户的用户行为数据;/n从所述用户行为数据中,提取所述待识别用户的用户行为特征;/n将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型Uplift Model;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;/n获取用户识别模型输出的用户执行所述目标行为的第一预测概率;/n将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;/n获取用户识别模型输出的用户执行所述目标行为的第二预测概率;/n计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;/n判断所述条件预测概率是否大于预设的阈值;/n如果是,则确定所述待识别用户为目标类型用户。/n...

【技术特征摘要】
1.一种目标类型用户的识别方法,其特征在于,所述方法包括:
获得待识别用户的用户行为数据;
从所述用户行为数据中,提取所述待识别用户的用户行为特征;
将所述待识别用户的用户行为特征和第一变量值输入到预先训练好的用户识别模型中;所述用户识别模型为:针对目标类型用户对应的目标行为,预先用实验组训练样本的用户行为特征和第一变量值,及对照组训练样本的用户行为特征和第二变量值训练好的净提升模型UpliftModel;所述实验组训练样本的用户行为特征和对照组训练样本的用户行为特征分别为从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的;所述实验组训练样本的用户行为数据为:满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;所述对照组训练样本的用户行为数据为:不满足预设条件的情况下,用户执行目标行为的正样本数据或不执行目标行为的负样本数据;
获取用户识别模型输出的用户执行所述目标行为的第一预测概率;
将所述待识别用户的用户行为特征和第二变量值输入到所述用户识别模型中;
获取用户识别模型输出的用户执行所述目标行为的第二预测概率;
计算所述第一预测概率与所述第二预测概率的差值作为在只有满足预设条件的情况下,用户执行所述目标行为的条件预测概率;
判断所述条件预测概率是否大于预设的阈值;
如果是,则确定所述待识别用户为目标类型用户。


2.根据权利要求1所述的方法,其特征在于,所述用户识别模型的训练过程包括:
将实验组样本的用户行为数据标记为实验组,将对照组样本的用户行为数据标记为对照组;
将实验组样本的用户行为数据和对照组样本的用户行为数据合并为数据集;
按预设比例抽取数据集中的样本,构成训练样本集;所述训练样本集中包含实验组训练样本和对照组训练样本;
获得从实验组训练样本的用户行为数据和对照组训练样本的用户行为数据中提取的用户行为特征的交集,作为输入当前初始用户识别模型的用户行为特征;
获得针对实验组训练样本预设的第一变量值和针对对照组训练样本预设的第二变量值;所述第一变量值,用于标识该样本为实验组训练样本;所述第二变量值用于标识该样本为对照组训练样本;
将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率;
将各个对照组训练样本的用户行为特征和第二变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第二预测概率;
根据各个实验组训练样本的用户行为数据中是否执行目标行为的真实结果、第一预测概率,以及各个对照组训练样本的用户行为数据中是否执行目标行为的真实结果、第二预测概率和预设的损失函数,计算损失值;
根据预设的损失函数的损失值判断当前初始用户识别模型是否收敛;
如果收敛,则确定当前初始用户识别模型为训练完成的用户识别模型;
如果未收敛,则调整当前初始用户识别模型的模型参数,返回所述将各个实验组训练样本的用户行为特征和第一变量值,输入到当前初始用户识别模型中,获得当前初始用户识别模型输出的用户执行目标行为的第一预测概率的步骤。


3.根据权利要求2所述的方法,其特征在于,所述当前初始用户识别模型的模型函数为:



其中,α,β,γ,δ为待训练的模型的模型参数;Xi为用户行为特征;Ti为第一变量值或第二变量值;E(Yi|Xi)为用户执行目标行为的第一预测概率或第二预测概率;
所述预设的损失函数为:
cost(hθ(x),y)=∑(-y(log(hθ(x))-(1-y)log(1-hθ(x)))+λ∑(|α|+|β|+|γ|+|δ|);
其中,λ惩罚系数为经验值;α,β,γ,δ为待训练的模型的模型参数;hθ(x)为用户执行目标行为的第一预测概率或第二预测概率;y为用户是否执行目标行为的真实结果。


4.根据权利要求2所述的方法,其特征在于,所述方法,还包括:
获得除去数据集中构成训练样本集的剩余的各个样本,构成测试样本集;所述测试样本集中包含实验组测试样本和对照组测试样本;
分别将测试样本集中的各个样本的用户行为特征和第一变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行目标行为的第一预测概率;
将测试样本集中的各个样本的用户行为特征和第二变量值,输入到所述训练完成的用户识别模型;
获得所述训练完成的用户识别模型输出的用户执行所述目标行为的第二预测概率;
将每个样本的第一预测概率和第二预测概率之差作为测试样本集中的各个样本在只有满足预设条件的情况下,用户执行目标行为的各个条件测试预测概率;
将所述各个测试预测概率,按照从高到低的顺序进行排序,获得条件测试概率序列;
基于所述条件测试概率序列中的每个实验组测试样本和对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确;
如果是,则将所述训练完成的用户识别模型作为最终训练好的用户识别模型;
如果否,则继续对该训练完成的用户识别模型进行训练。


5.根据权利要求4所述的方法,其特征在于,所述基于所述条件测试概率序列中的每个实验组测试样本或对照组测试样本是否执行目标行为的真实结果,判断所述训练完成的用户识别模型预测的结果是否准确的步骤,包括:
按照预设的每组中包含样本的个数,将所述条件测试概率序列分组,获得各组条件测试概率序列;
根据每组条件测...

【专利技术属性】
技术研发人员:郭延祥王湾湾姚明
申请(专利权)人:中诚信征信有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1