一种移动终端用户性别的预测方法、服务器和系统技术方案

技术编号:15542456 阅读:198 留言:0更新日期:2017-06-05 11:23
本发明专利技术公开了一种预测移动终端用户性别的方法,适于在服务器中执行,该服务器中预先存储有第一模型样本A

Method, server and system for predicting user gender of mobile terminal

The invention discloses a method for predicting the gender of a mobile terminal user, which is suitable for executing in a server, wherein the first model sample A is stored in advance in the server

【技术实现步骤摘要】
一种移动终端用户性别的预测方法、服务器和系统
本专利技术涉及移动通信领域,尤其涉及一种移动终端用户性别的预测方法、服务器和系统。
技术介绍
随着互联网技术和硬件技术的不断发展,越来越多的人开始使用如智能手机、平板电脑等移动终端设备。同时,移动互联网的广泛普及促使移动应用的发展更加迅猛,用户通过使用移动终端上安装的各类移动应用,进行阅读、聊天、购物等各项活动。用户在移动设备上使用某个应用时,会产生一系列状态数据,例如应用信息、移动设备信息、环境信息、位置信息等。大量移动设备的使用产生了海量的数据,通过对人群的基本属性、行为习惯、商业价值等多种维度信息数据综合分析即可精准的进行目标受众的画像和定位,并以标签和画像为基础进行精准定向的互联网广告营销。在用户画像的众多维度当中,性别是最重要的维度之一。如果知道了用户的性别,就可以专门向该用户推荐其他同性用户常关注的内容消息,从而提高用户体验和内容点击率或转化率。因此,需要提供一种能高效准确判断移动终端用户性别的方法。
技术实现思路
为此,本专利技术提供一种移动终端用户性别的预测方法、服务器和系统,以力图解决或至少解决上面存在的问题。根据本专利技术的一个方面,提供一种移动终端用户性别的预测方法,适于在服务器中执行,该方法包括服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该方法包括:步骤1:收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1;步骤2:将第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出第一模型样本A1的移动终端数目占比在一定范围的类;步骤3:从选出的类中取出第一模型子样本A11和第一待测子样本B11,并从第一模型子样本A11中选取一部分样本作为训练样本,对构建好的分类模型进行训练;步骤4:根据第一待测子样本B11的第二设备信息及所述训练好的分类模型,预测得到该样本B11中每个移动终端的用户性别;步骤5:将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到所述第一模型样本A1中,得到第二模型样本A2;步骤6:从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2;步骤7:在第二模型样本A2和第二待测样本B2的基础上,重复上述步骤2-4,以预测得到第二待测子样本B22中移动终端的用户性别;以及步骤8:重复上述步骤5-7直到处理了整体待测样本B中的所有移动终端为止。可选地,在根据本专利技术的方法中,第一模型样本A1的第一设备信息包括其中每个移动终端的用户性别和应用信息,根据第一模型样本A1的第一设备信息创建分类模型的方法包括步骤:通过组合该第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性数目,并计算得到每个应用的性别倾向指数;将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本中的每个移动终端在各分组内的单组性别维度值;以及根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。可选地,在根据本专利技术的方法中,构建分类模型的步骤包括:根据单组性别维度值计算得到该移动终端的整体性别维度值,整体性别维度值包括偏女性维度值和偏男性维度值;以及根据每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。可选地,在根据本专利技术的方法中,步骤1包括:计算该整体待测样本B中的每个待测移动终端的各个单组性别维度值和整体性别维度值;以及计算整体待测样本B中的每个待测移动终端的第一置信度和第二置信度,并从该样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为第一待测样本B1。可选地,在根据本专利技术的方法中,从整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本的操作包括步骤:对该样本B中进行第一次随机样本选取,并从选取结果中取出第一置信度大于第一阈值且第二置信度大于第二阈值的样本作为第一待测样本B1;步骤6包括:对剔除了第一待测子样本B11后的整体待测样本B进行第二次随机样本选取,并从选取结果中取出第一置信度大于第三阈值且第二置信度大于第四阈值的样本作为第二待测样本B2。可选地,在根据本专利技术的方法中,步骤2包括:根据第一模型样本A1和第一待测样本B1中每个移动终端的整体性别维度值和用户性别的对应关系进行聚类;以及从聚类结果中选取第一模型样本A1的移动终端数目占比在30%-70%的类。可选地,在根据本专利技术的方法中,步骤2还包括:如果聚类结果中有多个类的第一模型样本A1的移动终端数目占比在一定范围,则将这多个类中属于第一模型样本A1的样本进行合并,作为第一模型子样本A11;以及将这多个类中属于第一待测样本B1的样本进行合并,作为第一待测子样本B11。可选地,根据本专利技术的方法中,根据构建好的分类模型对待确定用户性别的移动终端进行性别预测的步骤包括:收集一个待确定用户性别的移动终端的设备信息;计算该移动终端的单组或整体性别维度值;以及将该单组或整体性别维度值输入到构建好的分类模型中,输出得到该移动终端的用户性别预测结果。可选地,在根据本专利技术的方法中,步骤3还包括:从第一模型子样本A11中另选一部分样本作为校验样本;将检验样本中的移动终端的性别维度值输入到训练好的分类模型中,输出得到该移动终端的用户性别预测结果;以及根据每个移动终端的真实用户性别对预测结果进行检验,得到该第一模型子样本A1'的性别预测准确度,并将该性别预测准确度近似作为第一待测子样本B1'的性别预测准确度。可选地,在根据本专利技术的方法中,还包括:如果第一模型子样本A11的性别预测准确度小于第五阈值,则在步骤5中将第一待测子样本B11继续保留在整体待测样本B中;以及在步骤6中从含有该第一待测子样本B11的整体待测样本B中进行第二次随机样本选取,并从选取结果中取出第二待测样本B2。可选地,在根据本专利技术的方法中,第一设备信息还包括移动终端的机型信息,该方法还包括步骤:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;以及基于每个机型的性别倾向指数计算该机型的性别维度值;计算移动终端的整体性别维度值的步骤还包括:如果机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端的偏男性维度值中。可选地,在根据本专利技术的方法中,还包括:根据模型样本中所含移动终端的数量,对第三阈值和第四阈值的数值进行调整。可选地,在根据本专利技术的方法中,将述应用按照性别倾向指数的大小划分为多个分组的步骤包括:计算性别倾向指数的最大值和最小值之间的差值,根据该差值将应用均分为多个分组;计算移动终端的应用在每个分组内的单组性别维度值的步骤包括:统计每个分组内所含的该移动终端的应用数目,并结合每个分组的权值来计算该移动终端在每个分组的单组性别维度值。根据本专利技术的另一方面,提供一种性别预测服务器,服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该服务器包括:样本文档来自技高网...
一种移动终端用户性别的预测方法、服务器和系统

【技术保护点】
一种移动终端用户性别的预测方法,适于在服务器中执行,所述服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A

【技术特征摘要】
1.一种移动终端用户性别的预测方法,适于在服务器中执行,所述服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该方法包括:步骤1:收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1;步骤2:将所述第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出所述第一模型样本A1的移动终端数目占比在一定范围的类;步骤3:从所述选出的类中取出第一模型子样本A11和第一待测子样本B11,并从所述第一模型子样本A11中选取一部分样本作为训练样本,对所述构建好的分类模型进行训练;步骤4:根据所述第一待测子样本B11的第二设备信息及所述训练好的分类模型,预测得到该第一待测子样本B11中每个移动终端的用户性别;步骤5:将所述已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到所述第一模型样本A1中,得到第二模型样本A2;步骤6:从所述剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2;步骤7:在所述第二模型样本A2和第二待测样本B2的基础上,重复上述步骤2-4,以预测得到第二待测子样本B22中移动终端的用户性别;以及步骤8:重复上述步骤5-7直到处理了整体待测样本B中的所有移动终端为止。2.如权利要求1所述的方法,所述第一模型样本A1的第一设备信息包括其中每个移动终端的用户性别和应用信息,所述根据第一模型样本A1的第一设备信息创建分类模型的方法包括步骤:通过组合该第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;从所述应用列表中统计每个应用所对应的移动终端的女性用户数目和男性数目,并计算得到每个应用的性别倾向指数;将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本A1中每个移动终端的应用在各分组内的单组性别维度值;以及根据所述每个移动终端的用户性别及其单组性别维度值,构建所述用于预测用户性别的分类模型。3.如权利要求2所述的方法,所述构建所述分类模型的步骤包括:根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;以及根据所述每个移动终端的用户性别及其整体性别维度值,构建所述分类模型。4.如权利要求1-3中任一项所述的方法,所述步骤1包括:计算所述整体待测样本B中的每个待测移动终端的各个单组性别维度值和整体性别维度值;以及计算该整体待测样本B每个待测移动终端的第一置信度和第二置信度,并从该整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为所述第一待测样本B1。5.如权利要求4所述的方法,所述从整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本的操作包括步骤:从该样本B中进行第一次随机样本选取,并从选取结果中取出第一置信...

【专利技术属性】
技术研发人员:路瑶张夏天
申请(专利权)人:腾云天宇科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1