本公开提供了一种数据处理方法,包括:获取操作数样本,其中,操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在操作数样本中的操作数据,确定多个用户的属性信息,其中,属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的多个用户的属性信息,对操作数样本所涉及的多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个用户数据样本中包含有对多个用户分流后得到的至少一个用户的用户信息。本公开还提供了一种数据处理系统、计算机系统和计算机可读存储介质。
Data Processing Method and System, Computer System and Computer Readable Storage Media
【技术实现步骤摘要】
数据处理方法及系统、计算机系统和计算机可读存储介质
本公开涉及计算机
,更具体地,涉及一种数据处理方法及系统、计算机系统和计算机可读存储介质。
技术介绍
随着计算机技术的快速发展,业界对通过数据处理模型处理数据的有效性要求也越来越高,而对数据处理模型处理数据的有效性进行测试可以了解一个数据处理模型的实际应用或者数据处理能力是否满足有效性要求。为了实现对数据处理模型的有效性进行测试,相关技术中采用随机分配的方式对多个用户进行分流处理,得到多个测试组,并将分流得到的多个测试组用于数据处理模型中测试。例如,对多个用户进行随机分组,得到A组测试组和B组测试组,将A组测试组和B组测试组分别用于测试相同或不同的数据处理模型,可以得到相应的测试结果,通过对A组测试组和B组测试组的测试结果进行比较,可以实现对数据处理模型的有效性进行测试。在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:相关技术中基于随机分配的测试分组对比方法容易使得数据处理模型的测试结果出现异常,特别是在流量小且用户较为集中的应用场景,现有的随机分配方案极有可能将大量的优质用户随机指定到一组,从而导致测试结果出现异常。
技术实现思路
有鉴于此,本公开提供了一种数据处理方法及系统、计算机系统和计算机可读存储介质。本公开的一个方面提供了一种数据处理方法,包括获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括从上述操作数样本中获取上述操作数据;根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述方法还包括根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息包括根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。根据本公开的实施例,根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息包括按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及基于上述有效数据确定上述多个用户的属性信息。本公开的另一个方面提供了一种数据处理系统,包括获取模块、确定模块和处理模块。获取模块用于获取操作数样本,其中,上述操作数样本中包含多个用户操作对象而产生的操作数据;确定模块用于根据包含在上述操作数样本中的上述操作数据,确定上述多个用户的属性信息,其中,上述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及处理模块用于根据确定出的上述多个用户的属性信息,对上述操作数样本所涉及的上述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个上述用户数据样本中包含有对上述多个用户分流后得到的至少一个用户的用户信息。根据本公开的实施例,上述确定模块包括获取单元、第一计算单元和第一确定单元。获取单元用于从上述操作数样本中获取上述操作数据;第一计算单元用于根据上述操作数据,按照第一预设算法计算上述多个用户的活跃度,其中,上述活跃度用于表征用户操作对象的活跃程度;以及第一确定单元用于根据活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述确定模块还包括第二计算单元和第二确定单元。第二计算单元用于根据上述操作数据,按照第二预设算法计算上述多个用户的交易评分,其中,上述交易评分用于表征用户交易对象的能力;以及第二确定单元用于根据交易评分计算结果和上述活跃度计算结果,确定上述多个用户的属性信息。根据本公开的实施例,上述第二确定单元包括第一分类子单元、第二分类子单元和确定子单元。第一分类子单元用于根据上述活跃度计算结果,将上述多个用户按预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第一类别标识;第二分类子单元用于根据上述交易评分计算结果,将上述多个用户按上述预定数量的类别进行分类,以为上述多个用户中的每个用户标记相应的第二类别标识;以及确定子单元用于根据为上述每个用户标记的相应的第一类别标识和第二类别标识,确定上述每个用户的属性信息。根据本公开的实施例,上述确定模块包括过滤单元和第三确定单元。过滤单元用于按照预定规则对上述操作数样本中包含的上述操作数据进行过滤,以得到符合上述预定规则的有效操作数据;以及第三确定单元用于基于上述有效数据确定上述多个用户的属性信息。本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的数据处理方法。本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的数据处理方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的数据处理方法。根据本公开的实施例,由于根据用户操作对象时产生的操作数据,如浏览、点击、收藏、交易等操作数据,可以确定用于表征不同用户在交易对象时所表现出的区别特征,即用户的属性信息,根据用户的属性信息将多个用户进行分流,将分流后得到的多个用户样本数据用于测试数据处理模型的技术手段,可以有效抑制大量的优质用户随机指定到一组而导致测试结果出现异常的情况,所以至少部分地克服相关技术中随机分流导致模型的测试指标异常的技术问题,避免了因用户本身质量差异而带来的测试偏差,达到了提高测试效率的技术效果。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构;图2示意性示出了根据本公开实施例的数据处理方法的流程图;图3示意性示出了根据本公开实施例的确定多个用户的属性信息的流程图;图4示意性示出了根据本公开另一实施例的确定多个用户的属性信息的流程图;图5示意性示出了根据本公开实施例的根据交易评分计算结果和活跃度计算结果,确定多个用户的属性信息的流程图;图6示意性示出了根据本文档来自技高网...
【技术保护点】
1.一种数据处理方法,包括:获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。
【技术特征摘要】
1.一种数据处理方法,包括:获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息,其中,所述属性信息用于表征不同用户在交易对象时所表现出来的区别特征;以及根据确定出的所述多个用户的属性信息,对所述操作数样本所涉及的所述多个用户进行分流处理,得到应用于测试数据处理模型的多个用户数据样本,其中,每个所述用户数据样本中包含有对所述多个用户分流后得到的至少一个用户的用户信息。2.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:从所述操作数样本中获取所述操作数据;根据所述操作数据,按照第一预设算法计算所述多个用户的活跃度,其中,所述活跃度用于表征用户操作对象的活跃程度;以及根据活跃度计算结果,确定所述多个用户的属性信息。3.根据权利要求2所述的方法,其中,所述方法还包括:根据所述操作数据,按照第二预设算法计算所述多个用户的交易评分,其中,所述交易评分用于表征用户交易对象的能力;以及根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息。4.根据权利要求3所述的方法,其中,根据交易评分计算结果和所述活跃度计算结果,确定所述多个用户的属性信息包括:根据所述活跃度计算结果,将所述多个用户按预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第一类别标识;根据所述交易评分计算结果,将所述多个用户按所述预定数量的类别进行分类,以为所述多个用户中的每个用户标记相应的第二类别标识;以及根据为所述每个用户标记的相应的第一类别标识和第二类别标识,确定所述每个用户的属性信息。5.根据权利要求1所述的方法,其中,根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属性信息包括:按照预定规则对所述操作数样本中包含的所述操作数据进行过滤,以得到符合所述预定规则的有效操作数据;以及基于所述有效数据确定所述多个用户的属性信息。6.一种数据处理系统,包括:获取模块,用于获取操作数样本,其中,所述操作数样本中包含多个用户操作对象而产生的操作数据;确定模块,用于根据包含在所述操作数样本中的所述操作数据,确定所述多个用户的属...
【专利技术属性】
技术研发人员:谢群群,邵荣防,郝晖,李萧萧,张小卫,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。