本发明专利技术提供一种基于家庭工作地上下文环境的用户需求获取方法及系统,包括基于移动网络运营商的数据集,获取移动用户网络使用信息;进行数据清洗,排除异常的用户上网记录;从用户上网记录中提取保留与用户兴趣相关的属性;进行用户兴趣空间发现;利用夹挤定理进行家庭工作地位置发现;进行数据整合及数据降维;利用随机森林进行模型训练,进行分类。本发明专利技术利用来自移动网络运营商的由用户网络使用详细信息构成的数据集,基于家庭工作地位置发现及其上下文环境,提出一个新技术方案来挖掘用户需求与兴趣,方便高效。
【技术实现步骤摘要】
本专利技术设及移动互联网大数据
,特别设及一种基于家庭工作地上下文环 境的用户需求获取技术方案。
技术介绍
随着移动互联网的迅速发展与普及,移动用户持续增长且更加依赖网络,信息超 载也越来越严重。目前移动互联网面临着大量内容需求、高昂维护费用、移动控制等挑战, 而移动用户兴趣的准确获取对于解决W上问题尤为重要,在工业界和学术界引起了广泛的 研究。现有的信息探测技术可W获取大量移动网络用户的UDRs扣sageDetailRecords,使 用详细记录),运为基于数据驱动的用户兴趣获取的研究提供了数据来源。 在有线网络中,多种技术可被用于用户需求的采集,例如信息检索、数据挖掘、复 杂网络等。移动互联网因融合了用户移动性,对用户兴趣的分析也涌现了新的方法,例如整 合了用户、时间、空间、行为四个方面的非参数贝叶斯模型,用户旅游行为与旅游偏好的关 联分析等。然而,移动互联网为用户需求分析也带来了挑战。移动互联网永远在线和覆盖 范围广的特性使得用户可W随时随地接入移动互联网,人们对移动互联网的访问已突破时 空限制。运些随时随地的访问行为增加了用户网络使用信息的复杂度,严重降低了用户兴 趣获取的准确率。因此,探索新的方法高效且准确地获取用户兴趣便尤为重要。
技术实现思路
本专利技术针对上述问题,提出了一种基于家庭工作地上下文环境的用户需求获取技 术方案,结合用户家庭和工作地的上下文环境信息进行用户兴趣识别。 阳〇化]本专利技术的技术方案提供一种基于家庭工作地上下文环境的用户需求获取方法,包 括W下步骤, 步骤1,基于移动网络运营商的数据集,获取移动用户网络使用信息,得到初始的 用户上网记录; 步骤2,进行数据清洗,从步骤1所得初始的用户上网记录中排除异常的用户上网 记录; 步骤3.根据步骤2清洗结果,从用户上网记录中提取与用户兴趣相关的属性; 步骤4.进行用户兴趣空间发现,包括根据访问用户数量和访问时长分别对网站 进行排序并确定候选网站,然后依据候选网站的社会属性与相似性进行聚类,并对分类后 网站做标签化处理,得到用户兴趣空间; 步骤5.利用夹挤定理进行家庭工作地位置发现,并获取相应家庭工作地上下文 信息;所述利用夹挤定理进行家庭工作地位置发现,包括根据用户在每天的第一条上网记 录、最后一条上网记录中出现频率最高的位置的中点,确定用户家庭位置,根据用户在工作 日的上午、下午的上网记录中出现频率最高的位置的中点,确定用户工作地位置; 步骤6.进行数据整合,将同一用户的用户上网记录和相应的家庭工作地上下文 信息进行整合,扩展与用户兴趣相关的属性,将家庭工作地上下文信息内容加入用户上网 记录; 步骤7.利用主成分分析方法,对步骤6整合后所得用户上网记录进行数据降维; 步骤8.利用随机森林进行模型训练,包括对每棵树,从训练集中有放回地随机选 取样本,作为树的训练集;对树中的每个节点,从用户上网记录的所有属性中无放回地随机 选取几个属性,寻找分类效果最好的一维特征,并据此对该节点上的样本进行分类; 步骤9.利用步骤8的训练结果对待测试的用户上网记录进行分类,得到预测结 果。 而且,步骤5中,确定用户家庭位置的方式包括如下子步骤, 步骤5. 1. 1,随机选取数据集中一个用户为当前处理用户user,并进行初始化,包 括令变量userJD= 1,day_num=观察时段中的天数,userjium=用户数; 步骤5. 1. 2,初始化列表1为空,列表2为空; 步骤5. 1. 3,选择数据集中观测时段的第一天作为当前处理日day,并令day_ID= 1 ; 步骤5. 1. 4,提取user在day内第一条上网记录的位置坐标,并将此位置加入列表 1; 步骤5. 1. 5,提取user在day内最后一条上网记录的位置坐标,并将此位置加入列 表2 ; 步骤5. 1. 6,令day_ID=day_ID+l,且将day更新为当前day的下一天; 阳02引步骤5. 1. 7,判断day_ID< =day_num是否成立,若成立,则返回步骤5. 1. 4,若不 成立,则进入步骤5. 1.8; 步骤5. 1. 8,选择列表1、列表2中出现频率最高的位置坐标,分别记为locationl、 location2 ; 步骤5. 1. 9,计算用户user的家庭位置坐标为0. 5X(X〇cationl+location2);步骤5. 1. 10,令userJD=use;r_ID+l,且将user更新为数据集中某一个从未被 访问过的用户; 步骤5. 1. 11,判断use;r_ID< =userjium是否成立,若成立,卯J返回步骤5. 1. 2,若 不成立,则结束进程。 而且,步骤5中,确定用户工作地位置的方式包括如下子步骤, 步骤5.2. 1,随机选取数据集中一个用户为当前处理用户user,并进行初始化,包 括令变量userJD= 1,day_num=观察时段中的天数,userjium=用户数; 步骤5. 2. 2,初始化列表1为空,列表2为空; 步骤5. 2. 3,选择数据集中观测时段的第一天作为当前处理日day,并令day_ID= 1 ; 步骤5. 2. 4,判断day是否为周末,是则进入步骤5. 2. 7,否则进入步骤5. 2. 5 ; 步骤5. 2. 5,提取在day的上午工作时间段巧:00,12:00),user的上网记录出现 频率最高的位置坐标,并加入列表1 ; 步骤5. 2. 6,提取在day的下午工作时间段,user的上网记录出现 频率最高的位置坐标,并加入列表2 ; 步骤5. 2. 7,令day_ID=day_ID+l,且将day更新为当前day的下一天; 步骤5. 2. 8,判断day_ID< =day_num是否成立,若成立,卯J返回步骤5. 2. 4,若不 成立,则进入步骤5. 2. 9; 步骤5. 2. 9,选择列表1、列表2中出现频率最高的位置坐标,分别记为locationl、 location2 ; 步骤5. 2. 10,计算用户user的工作地位置坐标为0. 5X(X〇cationl+location2); [00測步骤5. 2. 11,令userJD=use;r_ID+l,且将当前user更新为数据集中某一个从 未被访问过的用户; 步骤5. 2. 12,判断use;r_ID< =userjium是否成立,若成立,则返回步骤5. 2. 2,若 不成立,则结束进程。 而且,步骤7实现方式包括如下子步骤,[OOW步骤7. 1,设具备P维特征的n条用户上网记录构成nXp维矩阵矩阵中 的元素记为Xii,1《i《n,1《j《P;对进行减均值和方差归一化处理,包括对矩阵 的每一列特征,分别求其均值和标准差,并对元素X1,进行替换如下, 步骤7. 2,计算当前的矩阵的协方差矩阵RPXP,其中元素rgb表示矩阵X中 第a列数据X。和第b列数据Xb之间的协方差COV(Xa,Xb),rab=rba,曰,b= 1,2, 3, . ..,P; 步骤7. 3,解特征方程IAI-RpxpI= 0,A为待求的特征值,I为单位向量,求得 特征值入AAAp>0,W及特征值Ad相应的正交化单位特征向量Gd,本文档来自技高网...
【技术保护点】
一种基于家庭工作地上下文环境的用户需求获取方法,其特征在于:包括以下步骤,步骤1,基于移动网络运营商的数据集,获取移动用户网络使用信息,得到初始的用户上网记录;步骤2,进行数据清洗,从步骤1所得初始的用户上网记录中排除异常的用户上网记录;步骤3.根据步骤2清洗结果,从用户上网记录中提取保留与用户兴趣相关的属性;步骤4.进行用户兴趣空间发现,包括根据访问用户数量和访问时长分别对网站进行排序并确定候选网站,然后依据候选网站的社会属性与相似性进行聚类,并对分类后网站做标签化处理,得到用户兴趣空间;步骤5.利用夹挤定理进行家庭工作地位置发现,并获取相应家庭工作地上下文信息;所述利用夹挤定理进行家庭工作地位置发现,包括根据用户在每天的第一条上网记录、最后一条上网记录中出现频率最高的位置的中点,确定用户家庭位置,根据用户在工作日的上午、下午的上网记录中出现频率最高的位置的中点,确定用户工作地位置;步骤6.进行数据整合,将同一用户的用户上网记录和相应的家庭工作地上下文信息进行整合,扩展与用户兴趣相关的属性,将家庭工作地上下文信息内容加入用户上网记录;步骤7.利用主成分分析方法,对步骤6整合后所得用户上网记录进行数据降维;步骤8.利用随机森林进行模型训练,包括对每棵树,从训练集中有放回地随机选取样本,作为树的训练集;对树中的每个节点,从用户上网记录的所有属性中无放回地随机选取几个属性,寻找分类效果最好的一维特征,并据此对该节点上的样本进行分类;步骤9.利用步骤8的训练结果对待测试的用户上网记录进行分类,得到预测结果。...
【技术特征摘要】
【专利技术属性】
技术研发人员:江昊,周晨,陈艳秋,羿舒文,李倩,周娴,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。