一种基于全连接神经网络实现的移动终端用户性别预测方法和系统技术方案

技术编号:26260162 阅读:31 留言:0更新日期:2020-11-06 17:55
本发明专利技术提出基于全连接神经网络实现的移动终端用户性别预测方法和系统。所述方法包括获取移动终端样本数据、进行特征分类,得到连续性特征和离散型特征、对连续性特征和离散型特征分别进行处理后采用one‑shot编码表示得到one‑shot样本特征、将所有one‑hot样本特征进行Embedding映射、基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练、采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别等步骤。本发明专利技术还公开一种包含全连接神经网络模型的预测系统,用于所述的移动终端用户性别预测方法。本发明专利技术的技术方案能够使得建模过程更为完善,结果更为准确。

【技术实现步骤摘要】
一种基于全连接神经网络实现的移动终端用户性别预测方法和系统
本专利技术属于移动互联网
,尤其涉及一种基于全连接神经网络实现的移动终端用户性别预测方法和系统。
技术介绍
随着移动网络和智能手机的迅速发展,几乎每个人都离不开手机。咨询公司的报告显示,在近5年的时间里,智能手机在移动市场的渗透率已经从2014年的50%上升到2019年的80%,到2020年底,预计将达到95%。在日常生活中,人们几乎每天都在使用手机浏览网页、聊天和网上购物,手机的上网数据可以直观地反映用户的属性特征和行为偏好。因此,运营商可以通过智能网管平台采集移动用户终端APP安装列表、APP使用记录、终端类型和终端价格等数据,再结合GiHtub上开源的机器学习算法,便可以开展移动用户的精准画像工作,例如预测用户的年龄、性别等信息,这些在精准营销中是非常重要的客户标签属性。它不仅可以帮助互联网公司了解用户的行为特征,迭代开发产品,还可以帮助企业提高广告投放的精准度,从而节约广告投资成本。亚马逊的个性化商店和google的个性化搜索就是个性化服务很好的例子。亚马逊购物商城可以根据用户的浏览记录和购买记录给用户推荐相应的商品促使用户消费,或者通过分析购买过相同或相似产品的其他用户的购买行为为用户推荐商品。google的个性化搜索所取得的成就也让人瞩目,google的个性化搜索可以根据用户的搜索历史记录和搜索关键字返回个性化的结果以便满足用户的需求。随着信息技术的发展和智能手机的普及,智能手机应用呈现指数增长,基于位置的服务也越来越多。这些基于位置的网络应用准许用户发布自己的地理位置信息、搜索附近的人、分享个人的经历等,与此同时网络应用会为用户推荐用户所在地的特色商店、用户感兴趣的人或物,这些需要结合用户的地理位置信息、兴趣爱好以及个人基础属性信息。然而这些信息一般被视作用户隐私信息,很多的网络应用公司很难获得。尽管一些网络应用在用户注册时要求用户填写性别、出生年月、教育程度等相关信息,但是这些信息对用户比较敏感,因此很多用户根本不会填写这些相关信息或者填写错误的信息,这些不真实的信息对个性化推荐会有负作用。实际情况是大部分用户在注册时都没有填写相关的基础属性信息,对手机应用而言用户的基础属性信息是未知。中国授权专利技术专利ZL201610486432.7公开一种基于安装包列表的移动用户性别预测方法,包含以下步骤:获取有性别标签的用户设备号;从安装列表库中筛选出有性别标签的用户设备号所对应的用户,获取这些用户的安装包列表;将安装包列表数量小于M或者大于N的用户剔除;将安装包列表信息转换为特征数据集;将特征数据集按设定比例随机划分为训练集和测试集;根据训练集数据,使用GBDT模型训练,然后通过测试集进行验证,得到用户性别预测模型;从安装包列表库中获取没有性别标签的用户及其安装列表,做同样的特征转换利用已训练的性别模型预测。中国专利技术专利申请CN201611127122.2提出一种基于手机上网行为的用户性别预测方法,该方法统计用户在一段时间内点击各APP的次数;将统计数据整理成矩阵形式;对所述矩阵进行降维处理;将处理后的数据分为训练数据集和测试数据集,用训练数据集来训练预测模型;用测试数据集来验证预测模型,并计算准确度。本专利技术简单易行,且准确率较高。根据用户使用的APP的次数来预测用户的性别,对后续根据不同性别用户的偏好进行相关的个性化服务推荐提供了支持。然而,虽然现有技术已经存在各种预测用户性别的模型和机器学习算法,但是专利技术人发现,现有技术大多关注于模型和算法本身,而并未对算法或者模型使用的样本数据进行匹配处理,从而导致实际使用的样本数据本身存在较大的假阳性问题以及不均衡问题,从而导致建模和预测效果本身的准确性降低。
技术实现思路
为解决上述技术问题,本专利技术提出基于全连接神经网络实现的移动终端用户性别预测方法和系统。所述方法包括获取移动终端样本数据、进行特征分类,得到连续性特征和离散型特征、对连续性特征和离散型特征分别进行处理后采用one-shot编码表示得到one-shot样本特征、将所有one-hot样本特征进行Embedding映射、基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练、采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别等步骤。本专利技术还公开一种包含全连接神经网络模型的预测系统,用于所述的移动终端用户性别预测方法。本专利技术的技术方案能够使得建模过程更为完善,结果更为准确。具体而言,在本专利技术的第一个方面,提供一种移动终端用户性别预测方法,所述方法基于全连接神经网络实现。更具体的所述方法包括如下步骤S1-S6:S1:获取移动终端样本数据;S2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;S3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;S4:将所有one-hot样本特征进行Embedding映射;S5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;S6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。在本专利技术中,主要是通过用户手机安装包列表来预测用户的性别年龄。目前有的数据包括用户手机安装包列表、每个安装包对应的应用类别、手机品牌、手机品牌下的型号、手机屏幕长宽、手机系统、手机系统版本及该用户的性别年龄等。拥有的数据不仅限于上述,但必须包含用户手机安装包列表、每个安装包对应的应用类别和该用户的性别年龄。作为本专利技术的创造性技术手段之一,为了解决现有技术提到的样本数据本身存在较大的假阳性问题以及不均衡问题,所述步骤S3中对所述连续性特征和离散型特征分别进行不同的处理,具体包括:对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。作为本专利技术的另一个创新性优点,所述全连接神经网络模型任意相邻两层即n-1层任一神经元节点都与n层的所有神经元节点相连,第n层每个神经元节点在进行计算时,其激活函数的输入值是n-1层所有神经节点的加权。因此,在本专利技术的另一个方面,提供一种包含全连接神经网络模型的预测系统,用于前述的移动终端用户性别预测方法。在本专利技术中,全连接神经网络由两部分组成,分别是线性和非线性。对于输入向量x=[x1,x2,…,xn]T,在经过隐含层后,先得到线性输出向量z=[z1,z2,…,zn]T,输出向量的值主要通过权重向量w与偏置向量b来确定的,这是神经网络需要学习的重要参数,即z=w×x+b(1)在得到线性输出向量后,接本文档来自技高网
...

【技术保护点】
1.一种移动终端用户性别预测方法,所述方法基于全连接神经网络实现,其特征在于,所述方法包括如下步骤:/nS1:获取移动终端样本数据;/nS2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;/nS3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;/nS4:将所有one-hot样本特征进行Embedding映射;/nS5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;/nS6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。/n

【技术特征摘要】
1.一种移动终端用户性别预测方法,所述方法基于全连接神经网络实现,其特征在于,所述方法包括如下步骤:
S1:获取移动终端样本数据;
S2:将所述样本数据进行特征分类,得到连续性特征和离散型特征;
S3:对所述连续性特征和离散型特征分别进行不同的处理后,采用one-shot编码表示,得到one-shot样本特征;
S4:将所有one-hot样本特征进行Embedding映射;
S5:基于Embedding映射后的样本特征构建全连接神经网络模型并进行训练;
S6:采用训练好的全连接神经网络模型,输入移动终端用户特征,预测用户性别。


2.如权利要求1所述的移动终端用户性别预测方法,其特征在于:
所述步骤S1中获取移动终端样本数据,具体包括:
获取移动终端安装包列表、每个安装包对应的应用类别、移动终端品牌、移动终端品牌下的型号、移动终端屏幕尺寸、移动终端操作系统、移动终端系统版本及该移动终端标注的用户的性别和年龄段信息。


3.如权利要求1所述的移动终端用户性别预测方法,其特征在于:
所述步骤S3中对所述连续性特征和离散型特征分别进行不同的处理,具体包括:
对于连续性特征进行分段处理,并进行可视化分析,获取连续数据段以及离散数据段,将所述相邻的离散数据段与所述连续数据段之间的第一空值位段、以及相邻的离散数据段之间的第二空值位段识别出来;
如果所述第一空值位段的数量小于第一阈值,则利用所述离散数据段的众数填充所述第一空值位段;
如果所述第二空值位段的数量大于第二阈值,则删除与所述第二空值位段对应的离散数据段。


4.如权利...

【专利技术属性】
技术研发人员:任永亮李玲李嘉懿
申请(专利权)人:北京智能工场科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1