本发明专利技术实施例提供一种样本属性的动态分布数据获取方法及系统,其中方法可以包括:获取大规模样本中的任一样本的样本属性;确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。本发明专利技术实施例基于简单随机抽样原理,只需维持长度为N的样本属性队列即可得到样本属性的动态分布数据,减小了样本属性的动态分布数据获取的计算量。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供一种样本属性的动态分布数据获取方法及系统,其中方法可以包括:获取大规模样本中的任一样本的样本属性;确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。本专利技术实施例基于简单随机抽样原理,只需维持长度为N的样本属性队列即可得到样本属性的动态分布数据,减小了样本属性的动态分布数据获取的计算量。【专利说明】一种样本属性的动态分布数据获取方法及系统
本专利技术涉及数据处理
,更具体地说,涉及一种样本属性的动态分布数据获取方法及系统。
技术介绍
样本属性是指样本中具有统计价值且处于动态变化的属性,样本属性可以如用户手机的流量,农林养殖中的样本(样本可如鸡、鸭、猪等家禽)体重,游戏中玩家的战斗力等;对应的样本则为用户手机,农林养殖中的样本,游戏中的玩家等。目前,当存在大规模的样本时,获取大规模样本的样本属性的动态分布数据成为一个困扰技术人员的问题,样本属性的动态分布数据是指大规模样本中各样本的样本属性的动态分布情况,比如某一区域(如某市,某基站)内的用户手机的流量使用情况,某一游戏中的玩家的战斗力分布情况等。通过获取样本属性的动态分布数据,可以直观的了解大规模样本中的样本状况,比如通过获取某一区域内的用户手机的使用流量,可以直观的了解该区域内各用户手机的流量使用情况,从而为该区域内的基站建设、信道优化提供指导意见等;又如通过获取农林养殖中的家禽的体重,可以直观的了解所养家禽的体重情况,从而进行养殖策略的调整等。 目前,大规模样本中各样本的样本属性一般会定期更新后存储在数据库中,为获取样本属性的动态分布数据,服务器一般会定时遍历数据库,读取数据库中所有样本的样本属性,从而整理得到大规模样本的样本属性的动态分布数据。本专利技术的专利技术人在研究和实践过程中发现,现有技术至少存在以下的技术问题:现有技术需要遍历数据库,读取数据库中所有样本的样本属性才能得到样本属性的动态分布数据,所需要的计算量较大,样本属性的动态分布数据的获取较为费时。
技术实现思路
有鉴于此,本专利技术实施例提供一种样本属性的动态分布数据获取方法及系统,以解决现有样本属性的动态分布数据的获取方式的计算量较大,较为费时的问题。 为实现上述目的,本专利技术实施例提供如下技术方案: —种样本属性的动态分布数据获取方法,包括: 获取大规模样本中的任一样本的样本属性; 确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性; 保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据; 其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。 其中,所述确定所获取的样本属性在预先维持的样本属性队列中的更新位置包括: 判断所获取的样本属性对应的样本与所述样本属性队列所对应的样本是否相匹配; 若所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配,则确定所述样本属性队列中与所获取的样本属性对应的样本的位置为所述更新位置; 若所获取的样本属性对应的样本与所述样本属性队列所对应的样本不相匹配,则根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置。 其中,在所获取的样本属性对应的样本与所述样本属性队列所对应的样本相匹配时,所述在所述更新位置上更新入所获取的样本属性包括: 将所述样本属性队列中与所获取的样本属性对应的样本的位置上的样本属性替换为所获取的样本属性; 所述保持所述样本属性队列中的样本属性的有序排列包括: 根据所述更新位置上所更新的样本属性,调整所述样本属性队列中样本属性的排列顺序,以保持所述样本属性队列中的样本属性的有序排列。 其中,所述根据所获取的样本属性的大小与所述样本属性队列中存储的样本属性的大小确定更新位置包括: 判断所述样本属性队列的长度是否达到设定数值N ; 若所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间,确定所述样本属性队列中样本属性小于所获取的样本属性的最大样本属性,及样本属性不小于所获取的样本属性的最小样本属性,等概率随机的将所述最大样本属性或最小样本属性对应的位置确定为所述更新位置; 若所述样本属性队列的长度达到设定数值N,且所获取的样本属性小于所述样本属性队列中存储的样本属性的最小值,则等概率随机的将所述最小值的位置确定为所述更新位置或剔除所获取的样本属性; 若所述样本属性队列的长度达到设定数值N,且所获取的样本属性大于所述样本属性队列中存储的样本属性的最大值,则等概率随机的将所述最大值的位置确定为所述更新位置或剔除所获取的样本属性; 若所述样本属性队列的长度未达到设定数值N,则比对所获取的样本属性与样本属性队列中存储的样本属性的大小,通过所比对的所获取的样本属性与样本属性队列中存储的样本属性的大小,确定所获取的样本属性在所述样本属性队列中的更新位置。 其中,在所述样本属性队列的长度达到设定数值N,且所获取的样本属性介于所述样本属性队列中存储的样本属性的最大值和最小值之间时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括: 等概率随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性; 所述保持所述样本属性队列中的样本属性的有序排列包括: 在随机的将所述最大样本属性或最小样本属性对应的位置上的样本属性替换为所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。 其中,在所述样本属性队列的长度未达到设定数值N时,所述将所述更新位置上的样本属性更新为所获取的样本属性包括: 在所述更新位置上写入所获取的样本属性,以增长样本属性队列的长度; 所述保持所述样本属性队列中的样本属性的有序排列包括: 在所述更新位置上写入所获取的样本属性后,确定所述样本属性队列中的样本属性为有序排列状态。 本专利技术实施例还提供一种样本属性的动态分布数据获取系统,包括: 获取模块,用于获取大规模样本中的任一样本的样本属性; 更新位置确定模块,用于确定所获取的样本属性在预先维持的样本属性队列中的更新位置; 更新模块,用于在所述更新位置确定模块所确定的更新位置上更新入所获取的样本属性; 排列保持模块,用于在所述更新位置上更新入所获取的样本属性后,保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据; 其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。 其中,所述更新位置确定模块包括: 第一判断单本文档来自技高网...
【技术保护点】
一种样本属性的动态分布数据获取方法,其特征在于,包括:获取大规模样本中的任一样本的样本属性;确定所获取的样本属性在预先维持的样本属性队列中的更新位置,在所述更新位置上更新入所获取的样本属性;保持所述样本属性队列中的样本属性的有序排列,得到样本属性的动态分布数据;其中,所述样本属性队列中存储有所述大规模样本中的样本的样本属性,样本属性在所述样本属性队列中有序的排列,所述样本属性队列的长度为设定数值N,N小于所述大规模样本中的总样本数。
【技术特征摘要】
【专利技术属性】
技术研发人员:张尚良,王旭新,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。