The invention discloses a data processing method and a device. Among them, the method includes: access identification model for each user using the same network users in the network, the network access identification model contains at least a user page for a preset period of time through the same network, the network access identification factors; receiving the current users also use the same network. Network access behavior data; using each user's network access identification model respectively to the current user network access behavior data analysis, to determine the best matching with the current user user group. The invention solves the technical problems that the network access behavior data of the same network can only be obtained in the prior art, and the recognition accuracy of the network access behavior data is not high.
【技术实现步骤摘要】
本专利技术涉及互联网领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
随着互联网发展的加速,网络行为已经成为研究消费者的重要途径。目前用户网络访问行为数据的来源主要有:1)网络用户行为样本监测数据;2)网络服务商数据;3)网站服务器日志数据;4)第三方服务商通过页面标签技术获取的数据;5)其他方式。来源1)和2)是其中非常重要的两种方式,这些数据具有以下特点:1)能较为完整的体现网民的互联网访问路径,对全面了解当前网民的特点更加有价值;2)以家庭为单位获取数据;3)方便结合问卷调查等主观方式,能与多种数据源结合分析。但这样的数据源想要产生更高的数据价值,最重要的就是需要把以家庭为单位的数据进一步分离到每个人。现有技术描述了一种实现互联网用户访问情况统计分析的方法,该方案通过提取及记录每一来访用户对象所代表的用户机的信息,根据用户级的信息的相似度合并用户对象。通过学习过程记录不同的Cookie所代表的用户机的信息以及对Cookie所发生的浏览行为,对用户相似程度进行判断,将有可能是同一个用户产生的Cookie进行合并,并基于合并后Cookie的浏览行为记录统计分析访问频次和浏览行为习惯。由此,根据现有技术描述的基于用户机信息和浏览行为的相关度合并Cookie的方案可以确定,现有技术至少存在如下几个缺陷:1)适用数据源有限;2)分离精度有限;3)系统性误差会越来越大,没有修改的机会。针对现有技术中仅能得到同一网络的网络访问行为数据,网络访问行为数据识别精度不高的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据处理方法和装置, ...
【技术保护点】
一种数据处理方法,其特征在于,包括:获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,所述网络访问识别模型至少包含用户在预设时间段内通过所述同一网络进行页面访问之后,所确定的网络访问识别因素;接收同样使用所述同一网络的当前用户的网络访问行为数据;以及使用所述每个用户的网络访问识别模型分别对所述当前用户的网络访问行为数据进行分析,确定所述用户群中与所述当前用户的匹配度最高的用户。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取使用同一网络的用户群中每个用户的网络访问识别模型,其中,所述网络访问识别模型至少包含用户在预设时间段内通过所述同一网络进行页面访问之后,所确定的网络访问识别因素;接收同样使用所述同一网络的当前用户的网络访问行为数据;以及使用所述每个用户的网络访问识别模型分别对所述当前用户的网络访问行为数据进行分析,确定所述用户群中与所述当前用户的匹配度最高的用户。2.根据权利要求1所述的方法,其特征在于,用户访问页面所确定的所述网络访问识别因素包括如下任意一个或多个参数:访问页面的访问次数、访问时长、跳出率、访问频率和访问深度。3.根据权利要求2所述的方法,其特征在于,所述获取使用同一网络的用户群中每个用户的网络访问识别模型的步骤包括:获取所述预设时间段内使用所述同一网络的所述每个用户的网络访问行为数据;根据所述预设时间段内的所述每个用户的网络访问行为数据,确定所述用户群中每个用户的网络访问识别因素和相应的权重;以及根据所述每个用户的网络访问识别因素xi和相应的权重ki,按照公式yi=k1x1+k2x2+…+knxn生成所述每个用户的网络访问识别模型yi,其中,i为自然数。4.根据权利要求3所述的方法,其特征在于,所述使用所述每个用户的网络访问识别模型分别对所述当前用户的网络访问行为数据进行分析,确定所述用户群中与所述当前用户的匹配度最高的用户的步骤包括:从所述当前用户的网络访问行为数据中,提取得到所述当前用户进行页面访问后的网络访问识别因素;使用所述每个用户的网络访问识别模型yi对所述当前用户的网络访问识别因素进行处理,计算得到所述当前用户对应任意一个用户的网络访问识别模型yi的预测结果值;以及将所述预测结果值最高的用户确定为与所述当前用户匹配度最高的用户。5.根据权利要求3至4中任意一项所述的方法,其特征在于,使...
【专利技术属性】
技术研发人员:胡立芳,唐珺,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。