【技术实现步骤摘要】
一种基于时序中间态数据结构的数据聚合方法
本专利技术涉及数据处理领域,尤其涉及一种基于时序中间态数据结构的数据聚合方法。
技术介绍
时序数据,又称时间序列数据,是按时间顺序记录的数据列。时序特征计算是通过求和、平均、方差等计算方法,对时间序列进行处理以后得到的特征数据,例如:包含时间戳的交易流水是时序数据,通过求和、计数可获得本月交易总额、最近1小时交易次数时序特征。在移动互联网、物联网、金融服务等行业中,时序特征被广泛用于防范交易欺诈、个性化推荐、事中决策等业务场景中。除本身作为业务决策的依据外,时序特征还可作为输入,与规则引擎、机器学习模型等对接,处理复杂决策。实时时序特征计算系统(下文简称特征计算系统)用于实时计算事件数据流的时序特征,具有如下三个特点:1)事件驱动,特征计算通过接收事件来触发。2)有状态计算,特征计算依赖于过去或相关联的数据,并不能从当前处理的事件推导得出。例如:“最近5分钟交易总额”,并不能由最近一笔交易的信息计算得出。因而,特征计算系统需维护一系列状态。3)实时计算,数据价值随时间流逝而降低,特征计算系统作为决策基础,需要在最短时间内完成特征计算。特征计算系统大多采用经典流计算架构实现,目前主流的流式大数据计算框架包括Flink、SparkStreaming、Storm等。然而,随着数据采集手段的增加和业务复杂程度的提升,特征计算系统所需处理数据量急剧扩大。系统面临更大的挑战,主要体现在以下两个方面:一是,特征数量巨大,由于需要对用户、账号、资产等业务对象建立多维度的复杂特 ...
【技术保护点】
1.一种基于时序中间态数据结构的数据聚合方法,其特征在于,该方法通过特征计算系统将业务系统的数据转换成中间态数据,然后再对中间态数据进行聚合和存储;/n所述中间态数据的结构包括主键PKey、特征键FKey和数据Data;/n所述主键PKey,用于关联业务系统中一个特定的业务对象,是一个全局唯一的键值;用于对数据的存储和计算进行负载均衡;/n所述特征键FKey,用于描述特定业务对象的特征名称;所述特征名称具备唯一性;通过主键和特征键的组合,可以唯一确定某一业务对象的特定特征。/n所述数据Data,业务系统中的事件经过特征计算系统处理后形成的数值及其计算方法,用于时序中间态数据合并操作时计算中间结果。数据包含时间戳、聚合方式、结果数值和辅助数据四部分;所述时间戳为当前中间态数据所属时间切片的起点,由特征计算系统根据事件时间戳映射而成;所述聚合方式为描述中间态数据聚合的方法;所述结果数值为当前已知的中间态数据的具体数值;所述辅助数据为对中间态数据进行聚合时与聚合方式相关的所需的额外辅助数据。/n
【技术特征摘要】
1.一种基于时序中间态数据结构的数据聚合方法,其特征在于,该方法通过特征计算系统将业务系统的数据转换成中间态数据,然后再对中间态数据进行聚合和存储;
所述中间态数据的结构包括主键PKey、特征键FKey和数据Data;
所述主键PKey,用于关联业务系统中一个特定的业务对象,是一个全局唯一的键值;用于对数据的存储和计算进行负载均衡;
所述特征键FKey,用于描述特定业务对象的特征名称;所述特征名称具备唯一性;通过主键和特征键的组合,可以唯一确定某一业务对象的特定特征。
所述数据Data,业务系统中的事件经过特征计算系统处理后形成的数值及其计算方法,用于时序中间态数据合并操作时计算中间结果。数据包含时间戳、聚合方式、结果数值和辅助数据四部分;所述时间戳为当前中间态数据所属时间切片的起点,由特征计算系统根据事件时间戳映射而成;所述聚合方式为描述中间态数据聚合的方法;所述结果数值为当前已知的中间态数据的具体数值;所述辅助数据为对中间态数据进行聚合时与聚合方式相关的所需的额外辅助数据。
2.根据权利要求1所述的一种基于时序中间态数据结构的数据聚合方法,其特征在于,该方法包括以下步骤:
(1)业务系统将事件随机发送给特征计算系统中的任一节点;
(2)接收到事件的特征计算系统节点实时计算事件数据流的时序特征,将其转换成中间态数据;并根据中间态数据的主键PKey确定该中间态数据所对应的目标节点,并将中间态数据发送至目标节点的缓存队列Queue;
(3)缓存队列Queue每次取出n条中间态数据,根据中间态数据的主键PKey、特征键FKey以及时间戳Timestamp是否一致,对中间态数据进行两两比对和合并;
(4)将步骤(3)中的中间态数据合并结果逐一与内存数据库MemDB中的对应的中间态数据采用与步骤(3)相同的方式进行合...
【专利技术属性】
技术研发人员:王新根,王新宇,鲁萍,黄滔,陈伟,金路,
申请(专利权)人:浙江邦盛科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。