当前位置: 首页 > 专利查询>丰宗军专利>正文

一种描述流式统计运算方式的配置方法技术

技术编号:38431872 阅读:6 留言:0更新日期:2023-08-11 14:19
本发明专利技术公开了一种描述流式统计运算方式的配置方法,属于大数据应用技术领域,本发明专利技术将流式数据统计需求抽象分类成多种运算场景,包括次数运算、求和运算、最大值运算、最小值运算、平均值运算、基数运算以及时序运算,制定了一套用于描述流式统计运算方式的配置方法,它内置丰富的转化类函数、支持表达式解析,可以满足各种复杂的条件筛选和逻辑判断,支持多维度计算,支持天级、小时级、分钟级、秒级多个时间粒度的统计,支持自定义统计周期的配置,本发明专利技术用于帮助企业应对繁杂的流式数据统计问题,可以减少企业在流式数据统计方面的研发成本和数据维护成本。本和数据维护成本。本和数据维护成本。

【技术实现步骤摘要】
一种描述流式统计运算方式的配置方法


[0001]本专利技术涉及大数据应用
,具体地说涉及一种描述流式统计运算方式的配置方法。

技术介绍

[0002]随着各行业的不断发展,企业对数据时效性的重视程度日益增加,而流式数据统计技术正被各个行业、越来越多的企业所采用,比如:互联网企业实时统计产品的PV、UV;电商企业实时统计平台的交易额、交易量;电信运营商实时统计网络数据包的传输量、传输效率;智能交通系统实时统计道路上的人流、车流。这些常见的流式统计技术的应用提高了企业的运营效率,也给我们的生活带来了很大的便利。
[0003]流式数据统计技术的应用具有极大的产业价值,然而目前该领域的发展依然存在着很多瓶颈。当前业内针对流式统计服务的实现方案大多是基于FlinkSQL、SparkSQL、OLAP类引擎以及其他衍生类技术方案实现,而这类技术方案都是基于SQL语言进行数据的统计与分析。虽然SQL语言在数据存储查询和离线统计分析等方面被广泛应用,但是在流式统计这个细分领域内,SQL语言的应用存在着一些弊端,主要分为两类:
[0004]1、使用方面的问题,SQL语法过于臃肿和复杂、不够清晰简洁、多过滤条件的组合逻辑需要依赖较长的SQL语句来实现,不便于理解;SQL函数定制化功能扩展不够方便;SQL语言的开发相对较复杂,实现相同的功能SQL可能会有多种写法,不同写法执行和解析效率也各有差异;这些问题使得相应功能的实现需要依赖专业的数据研发人员,导致流式统计任务研发成本高、开发周期长。
[0005]2、性能方面的问题,由于SQL本身是基于数据表的概念进行数据处理,不可避免的需要存储较多的原始数据或中间态数据在内存中,造成较高的内存浪费;分布式SQL在数据的处理过程中会触发Shuffle,造成大量的网络传输,影响执行效率;SQL在一些分组聚合操作中可能引起较为严重的数据倾斜,对程序的正常执行造成严重影响。这类问题导致对于不同的流式统计任务需要制定单独的优化方案,使得SQL在流式大数据统计领域被局限在针对特定需求单独开发的范畴之内,也因此制约了流式统计技术更大规模的应用。
[0006]SQL语言的上述问题在流式统计需求呈指数级增长时,其自身瓶颈也凸显出来。针对这种现状目前业内尚没有解决方案,因此本专利技术提出了一种描述流式统计运算方式的配置方法,用于取代SQL语言在流式大数据统计这个细分领域内的应用。这种配置方法功能强大、易于扩展、语法简洁清晰、便于理解和使用,即便没有技术背景的人员也依然可以很好的使用该方法。此外本专利技术基于该配置方法,提供了一套通用型流式大数据统计系统的实现方案,该实现方案侧重于规避Shuffle操作,降低运算过程中网络数据传输量,并针对流式统计各种运算场景进行统一的组件化封装,着重优化内存占用和网络IO问题,使得各种运算组件可以达到复用的效果。基于此专利技术可以降低企业使用流式大数据统计技术的门槛,降低企业的研发成本、提高数据利用效率,具有比较高的实际应用价值。

技术实现思路

[0007]本专利技术提供了一种描述流式统计运算方式的配置方法,并基于该种配置方法提供了一套通用型流式大数据统计系统的实现方案。本专利技术可以帮助企业应对繁杂的流式数据统计需求,降低企业的研发成本。描述流式统计运算方式的配置方法,包括以下步骤:
[0008]步骤S1、创建统计组,统计组是基于一份元数据的一个或多个统计项的合称,统计组下所有的统计项只需要基于一份统计原始消息数据即可进行相关指标统计,其目的在于可以减少原始消息数据的重复发送从而减少网络数据传输,此外统计组也便于用户对统计指标的管理和维护;
[0009]步骤S2、创建统计组所对应的元数据结构,包含统计相关字段名和字段类型;
[0010]步骤S3、创建统计项,一个统计组下可包含一个或多个统计项,每个统计项配置主要包括:统计模板配置、统计周期配置和数据有效期配置。
[0011]进一步地,上述步骤S3中统计模板配置包括:统计表达式配置,用于指定统计项的计算规则;维度表达式配置,用于指定统计项的维度信息;结果筛选表达式配置,用于对统计结果进行筛选操作。
[0012]优选地,统计模板配置可基于XML、JSON、YAML、CSON、TOML或其他键值对格式的文本配置的方式实现,该配置方式语法清晰、便于理解和使用。
[0013]进一步地,本专利技术将流式统计运算场景抽象分类成多种运算单元,包括:次数运算单元、求和运算单元、最大值运算单元、最小值运算单元、平均值运算单元、时序运算单元和基数运算单元,运算单元可根据需要进行扩展。
[0014]进一步地,统计表达式由一个或多个统计运算单元组成,多个统计运算单元之间可进行算术运算。统计运算单元的配置格式为:
[0015]function_name(related_column,filter_unit1,filter_unit2,...),其中,
[0016]function_name为统计运算函数名称;
[0017]related_column为运算关联参数;
[0018]filter_unit为筛选参数;
[0019]进一步地,统计运算的关联参数与统计运算单元的类型有关,次数运算的关联参数值默认为1,不需要额外指定;求和运算关联参数为进行求和运算的相关字段,其值为数值类型;最大值运算关联参数为进行求最大值运算的相关字段,其值为数值类型;最小值运算关联参数为进行求最小值运算的相关字段,其值为数值类型;平均值运算关联参数为进行求平均值运算的相关字段,其值为数值类型;基数运算关联参数为进行基数运算的相关字段,其值为字符串类型;时序运算关联参数为进行时序运算的相关字段,其值为数值类型。
[0020]进一步地,筛选参数是结果为布尔类型的表达式,用于对时间窗口内的原始消息进行过滤判定,每个统计运算单元可根据需要指定0个或多个筛选参数,多个筛选参数之间为逻辑与运算关系,每个筛选参数由一个或多个筛选条件组成,多个筛选条件之间使用逻辑运算符连接。
[0021]进一步地,统计表达式和维度表达式中可使用转化类函数,转化类函数是对原始消息相关字段按指定方式进行转化操作后再进行后续运算。统计周期用于指定流式计算的时间窗口,包含滚动窗口类型和滑动窗口类型,每种窗口类型的时间粒度包含秒级、分钟
级、小时级、天级,用户可自定义统计周期。维度表达式可指定0个或多个维度,多个维度之间使用指定分割符分割。结果筛选表达式用于对统计结果进行筛选操作,可用于常见的topN或lastN运算。
[0022]本专利技术基于上述配置方法提供了一套通用型流式大数据统计系统的实现方案,包括以下内容:
[0023]1.系统从client端发送消息到最终的统计结果入库中间的每个环节都对重复性消息进行聚合处理,系统的消费链路是一个逐层递减的结构。系统将数据消费的整个链路分成四个基本环节:一是client模块收发消息环节,二是RPC模块处理消息环节,三是运算模块按照统计组下所有统计项对消息数据执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种描述流式统计运算方式的配置方法,其特征在于,所述的配置方法包括以下步骤:步骤S1、创建统计组,统计组是基于一份元数据的所有统计项的合称;步骤S2、创建统计组所对应的元数据结构,包含统计相关字段名和字段类型;步骤S3、创建统计项,每个统计项配置主要包括:统计模板配置、统计周期配置和数据有效期配置。2.根据权利要求1所述的一种描述流式统计运算方式的配置方法,其特征在于,所述步骤S3中统计模板配置是基于XML、JSON或其他键值对格式的文本配置信息。3.根据权利要求1所述的一种描述流式统计运算方式的配置方法,其特征在于,所述步骤S3中统计周期配置用于指定流式统计的时间窗口,包含滚动窗口类型和滑动窗口类型,每种窗口类型的时间粒度包含秒级、分钟级、小时级、天级,用户可自定义统计周期。4.根据权利要求1所述的一种描述流式统计运算方式的配置方法,其特征在于,所述步骤S3中统计模板配置主要包括:统计表达式配置,用于指定统计项的计算规则;维度表达式配置,用于指定统计项的维度信息;结果筛选表达式配置,用于对统计结果进行筛选操作。5.根据权利要求4所述的一种描述流式统计运算方式的配置方法,其特征在于,所述的维度表达式配置可指定0个或多个维度,多个维度之间使用指定分割符分割。6.根据权利要求4所述的一种描述流式统计运算方式的配置方法,其特征在于,所述的统计表达式配置由至少一个统计运算单元组成,多个统计运算单元之间可进行算术运算。7.根据权利要求4所述的一种描述流式统计运算方式的配置方法,其特征在于,统计模板配置中的统计表达式和维度表达式中可使用转化类函数,转化类函数用于将原始消息字段按指定方式进行转化操作后再进行相应运算。8.根据...

【专利技术属性】
技术研发人员:丰宗军
申请(专利权)人:丰宗军
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1