本发明专利技术的对海量数据的维度用户的定位方法,解决海量数据中维度数据无法有效定位,导致数据利用率低,影响数据分析效率的技术问题。包括以下步骤:预设用户的键值结构,以用户的用户标识为键,相应的数值为键值;利用键值结构形成用户的位置标识;扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据。
【技术实现步骤摘要】
本专利技术涉及一种数据处理方法,特别是涉及一种对海量数据中特定类型数据的处理方法。
技术介绍
在竞争与机遇并存的数字化信息时代,数据的分析与统计以决策支撑的身份出现在经济、管理、规划和投资等许多相关领域。作为为企业经营部门和决策层提供重要决策依据的技术手段,需要完成对反应和影响企业发展的重要数据进行实时收集、分析,并及时形成关键信息并反馈的处理过程,在满足时效性的前提下,客观地反应业务发展状况。例如对经营性企业来说,用户数指标是反映业务发展的一项关键指标。在用户业务量不断增长的情况下,海量数据环境下如何快速计算出用户数,已经成为数据分析系统亟待解决的业务需求。在面对每天产生的上亿条用户使用日志进行海量数据统计处理的计算中,用户数的快速读取计算是一个急需解决的技术难题。目前,计算海量数据的现有技术通常采用的方法是进行一次对一种维度(即某一个计算指标或参数,例如日期、业务类型、用户类型等)的统计需求,就要对全部数据进行一次扫描计算,具体方法包括分组、去重、求和的过程。用户数的计算过程是首先要在全部数据中排除重复用户的标识,然后计算去重后的用户数量。当增加统计维度时,还需要重新进行去重操作与重复计算,其计算量非常巨大和耗时。例如:针对一天的日志数据分别计算网络类型和业务类型的用户数时,按照现有技术的方法,需要扫描两次日志文件数据源:第一次计算网络类型的用户对象的数量,第二次计算业务类型的用户对象数量。当需要以上两种类型(两个维度)的组合用户数时,还需要重新进行一次扫描和计算,而每一次的扫描与统计计算因为涉及海量的数据对象,都会占用大量的计算机资源。每一次对数据源(通常是存储在数据库中的日志数据)的扫描,需要调用高级数据接口、处理复杂数据对象,往往要对数据库引擎、处理器和磁盘系统、内存系统造成较大压力,海量数据的扫描周期较长也不利于保证时效性。如何快速完成多维度用户数据的扫描计算形成多维度数据分析结果,这一计算机数值分析与统计领域的技术问题,往往涉及以下技术难点:如何定位数据源中的某一维度的数据,在去重的同时保证数据的离散化和可检索。这是保证减少完整扫描次数和满足数据扫描结果积累更新的关键。如何形成对海量数据的高效中间运算,尽量运用低级运算方式和方法,避免高级数据对象运算形成的高TPS(每秒处理事务数)消耗。
技术实现思路
有鉴于此,本专利技术实施例提供了一种对海量数据的维度用户的定位方法,用于解决海量数据中维度数据无法有效定位,导致数据利用率低,影响数据分析效率的技术问题。本专利技术的一种对海量数据的维度用户的定位方法,包括以下步骤:预设用户的键值结构,以用户的用户标识为键,相应的数值为键值;利用键值结构形成用户的位置标识;扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据。所述利用键值结构形成用户的位置标识,包括:扫描数据源,获取用户信息,提取用户的唯一用户标识;为每一用户分配唯一的数字标识;将唯一用户标识和唯一的数字标识形成用户的键值对数据。所述扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据,包括:扫描数据源,提取数据源中单一维度的用户数据中的用户信息,形成相应的用户标识;用户标识与用户键值对数据比较,形成用户的相应键值对数据;将相应用户键值对数据形成线性结构数据;利用线性结构数据中的值定位内存中的存储位并赋值,形成用户分布数据。所述扫描数据源采用分段或分步扫描。所述提取数据源中单一维度的用户数据中的用户信息,包括:同步提取若干个单一维度的用户数据中的用户信息。所述线性结构数据采用链表结构。所述链表结构中的线性结构数据去重。所述线性结构数据采用队列结构。所述利用线性结构数据中的值定位内存中的存储位并去重赋值。所述去重赋值包括:在赋值过程中与存储位内容进行布尔运算,用运算结果赋值。本专利技术的一种对海量数据的维度用户的定位方法,利用数值的离散性,将与用户对应的连续数值形成相关的位置标识作为坐标,将位置标识映射为二维空间中的位置和距离,并利用内存地址的连续性确定相应的位置和距离,在线性位置的内存对象赋值,形成可测量和存储的位置分布信息。解决了海量数据中对数据源的扫描和处理都只能基于给定的数据对象,而数据对象的类型和对象数据的分布规律隐含在数据源中无法提取和利用的难题。利用用户与离散数值间建立的位置标识,在内存空间中建立位置关联,可以将海量数据中的多维度用户数据的定位应用于后续的数据分析,使数据分析效率大大提升。附图说明图1a为本专利技术对海量数据的维度用户的定位方法一实施例的流程图;图1b为本专利技术对海量数据的维度用户的定位方法一实施例的预置流程图;图2为本专利技术对海量数据的维度用户的定位方法一实施例的位置标识的形成流程图;图3为本专利技术对海量数据的维度用户的定位方法一实施例的用户分布的形成流程图;图4为本专利技术对海量数据的维度用户的定位方法一实施例的维度数据的形成流程图;图5为本专利技术对海量数据的维度用户的定位方法一实施例的多维度用户分析的形成流程图;图6为本专利技术对海量数据的维度用户的定位方法一实施例形成维度用户数据的过程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图纸中的步骤编号仅用于作为该步骤的附图标记,不表示执行顺序。本专利技术的对海量数据的维度用户的定位方法,利用数的离散性,将与用户对应的连续数值形成相关的位置标识,将位置标识映射为二维空间中的位置和距离,并利用内存地址的连续性确定相应的位置和距离,利用布尔运算形成相应维度类型的用户信息。图1a为本专利技术一实施例的对海量数据的维度用户的定位方法的流程图,为形成多维度用户信息的过程。如图1a所示,该方法包括:步骤02:扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据;步骤03:根据用户分布数据形成可存储的维度用户数据;步骤04:在可存储的维度用户数据间,通过布尔运算形成多维数据分析结果。本实施例的对海量数据的维度用户的定位方法,利用用户与离散数值间建立的位置标识,在内存空间中建立位置关联,将映射的用户信息以位置信息存储,充分利用内存环境的寻址性能和处理器低级运算的绝对优势,将海量数据中的维度用户数据分析的运算周期大大缩短。在复杂的多维度用户数的处理过程中,可以将数据源扫描频率降低、分析过程简化,处理速度可以提高一至两个量级。图1b为本专利技术一实施例的对海量数据的维度用户的定位方法的预置流程图,提供了一种形成位置标识的过程,如图1b所示,该方法包括:步骤01:建立用户标识键值结构,形成用户的位置标识。步骤01作为利用位置标识进行数据处理前的独立的数据处理过程。本实施例的对海量数据的维度用户的定位方法,利用数值的离散性,将离散用户与连续数值关联形成位置标识,连续数值映射为二维空间中的距离和位置。图2为本专利技术对海量数据的维度用户的定位方法一实施例的位置标识的形成流程图。如图2所示包括:步骤11:获取数据源中的用户信息,提取用户标识;通过分段扫描数据源,获取用户信息,提取用户的唯一用户标识本文档来自技高网...

【技术保护点】
一种对海量数据的维度用户的定位方法,包括以下步骤:预设用户的键值结构,以用户的用户标识为键,相应的数值为键值;利用键值结构形成用户的位置标识;扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据。
【技术特征摘要】
1.一种对海量数据的维度用户的定位方法,包括以下步骤:预设用户的键值结构,以用户的用户标识为键,相应的数值为键值;利用键值结构形成用户的位置标识;扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据。2.如权利要求1所述的对海量数据的维度用户的定位方法,所述利用键值结构形成用户的位置标识,包括:扫描数据源,获取用户信息,提取用户的唯一用户标识;为每一用户分配唯一的数字标识;将唯一用户标识和唯一的数字标识形成用户的键值对数据。3.如权利要求1所述的对海量数据的维度用户的定位方法,所述扫描数据源,利用位置标识定位单一维度下的用户位置信息,形成用户分布数据,包括:扫描数据源,提取数据源中单一维度的用户数据中的用户信息,形成相应的用户标识;用户标识与用户键值对数据比较,形成用户的相应键值对数据;将相应用户键值对数据形成线性结构数据;利用线性结构数据中的值定...
【专利技术属性】
技术研发人员:王西刚,董芸,李学春,林峰,吴卫,
申请(专利权)人:北京首信科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。