多源异构日志数据处理方法、装置、设备及介质制造方法及图纸

技术编号:33635549 阅读:21 留言:0更新日期:2022-06-02 01:47
本公开提供了一种多源异构日志数据处理方法,可以应用于信息技术领域。该多源异构日志数据处理方法包括:根据多源异构日志数据源生成元数据对象;对多源异构日志数据源进行日志分析,得到日志分析结果;根据元数据对象和日志分析结果得到元数据关系;根据元数据关系和元数据对象生成多源异构日志数据源的元数据。本公开还提供了一种多源异构日志数据处理装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

【技术实现步骤摘要】
多源异构日志数据处理方法、装置、设备及介质


[0001]本公开涉及信息
,具体地涉及一种多源异构日志数据处理方法、装置、设备及介质。

技术介绍

[0002]针对数据处理,数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实情况的根源因素,通过建立模型与预测来进行优化,以实现社会运行中各个领域的持续改善与创新。
[0003]虽然近两年来“大数据”的概念越来越多的被媒体以及行业提及,但“大数据分析”在国内的发展却仍处于初期阶段。
[0004]从行业实践的角度看,只有少数几个行业的部分企业,能够对大数据进行基本分析和运用,并在业务决策中以数据分析结果为依据。这些行业主要集中在银行与保险,电信与电商等领域。以银行业为例,目前大型国有银行在其主营业务中均引入了数据分析,但深度尚可,广度不够,尚未扩充到运营管理的所有领域。而中小银行在数据分析方面的人员与能力建设尚处于起步阶段。对于支撑起我国庞大国民生产总值的建筑业、制造业以及贸易行业,其数据分析应用远远没有进入规模化发展阶段,这些行业在IT方向的开支主要集中在公司日常的流程化管理领域。
[0005]从技术发展的角度看,一些已经较为成熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多个行业领域里得到广泛和深入的应用。最典型的就是电商行业,运用这些技术对行业数据进行分析,对提高行业的整体运行效率以及增加行业利润都起到了极大的推动作用。但对于像Hadoop、非结构化数据库、数据可视化工具以及个性化推荐引擎这样的新技术,其较高的技术门槛和高昂的运营维护成本使得国内只有少数企业能够将其运用到深入分析行业数据中。
[0006]从数据来源的角度看,在能够实现数据化运营的企业中,绝大多数仅仅完成了依靠企业自身所产生的数据解决自身所面临的问题,并且是依据问题来收集所需要的数据。而仅有极少数互联网企业能够发挥出大数据分析的真正价值。同时运用企业外部和内部的数据来解决企业自身的问题,通过数据分析预测可能出现的问题,并依据数据分析的结果进行商业决策。在一定程度上实现了由数据化运营向运营数据的转变。
[0007]但随着信息技术的发展,信息系统规模出现爆炸式增长,呈现出数据量大、数据种类和来源多样化、数据价值密度相对较低、数据增长速度快、数据准确性和可信度低的特点。为了处理大规模数据,信息系统通常采用分布式的体系结构,导致数据具有多源、异构的特点,即数据通常分布在多个数据源中,数据源之间种类、结构、实现、版本、部署环境等各不相同。多源异构数据给理解信息系统、迭代和维护信息系统、使用和查询数据带来了巨
大的挑战。

技术实现思路

[0008]鉴于上述问题,本公开提供了一种多源异构日志数据处理方法、装置、设备、介质和程序产品。
[0009]根据本公开的第一个方面,提供了一种多源异构日志数据处理方法,包括:根据多源异构日志数据源生成元数据对象;对多源异构日志数据源进行日志分析,得到日志分析结果;根据元数据对象和日志分析结果得到元数据关系;根据元数据关系和元数据对象生成多源异构日志数据源的元数据。
[0010]根据本公开的实施例,根据多源异构日志数据源生成元数据对象包括:对多源异构日志数据源进行数据导入检查;在通过数据导入检查后,根据数据存储组件抽取多源异构日志数据源的模式;根据模式抽取多源异构日志数据源的关键信息;根据关键信息生成元数据对象。
[0011]根据本公开的实施例,对多源异构日志数据源进行日志分析,得到日志分析结果包括:根据多源异构日志数据源抽取目标日志;对目标日志进行预处理;根据预处理后的目标日志获取所有用户的上网记录;根据上网记录进行日志分析,得到日志分析的结果。
[0012]根据本公开的实施例,对多源异构日志数据源进行数据导入检查包括:检查多源异构日志数据源的命名、格式、数据类型是否合法;若多源异构日志数据源的命名、格式、数据类型合法,则通过数据导入检查。
[0013]根据本公开的实施例,根据模式抽取多源异构日志数据源的关键信息包括:根据模式,对多源异构日志数据源进行语法和语义分析;根据语法和语义分析的结果得到多源异构日志数据源的数据属性粒度信息,数据属性粒度信息包含名称、类型及取值;根据名称、类型及取值得到关键信息。
[0014]根据本公开的实施例,根据上网记录进行日志分析,得到日志分析的结果包括:根据上网记录中的上网和下网的时间差查询目标数据库;根据上网记录中的网络地址查询目标数据库的所有上网行为数据集;通过上网行为数据集确定eduroam数据,eduroam数据为日志分析的结果。
[0015]本公开的第二方面提供了一种多源异构日志数据处理装置,包括:元数据对象模块,用于根据多源异构日志数据源生成元数据对象;日志分析模块,用于对多源异构日志数据源进行日志分析,得到日志分析结果;元数据关系模块,用于根据元数据对象和日志分析结果得到元数据关系;元数据模块,用于根据元数据关系和元数据对象生成多源异构日志数据源的元数据。
[0016]本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述多源异构日志数据处理方法。
[0017]本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述多源异构日志数据处理方法。
[0018]本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述多源异构日志数据处理方法。
附图说明
[0019]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0020]图1示意性示出了根据本公开实施例的多源异构日志数据处理方法、装置、设备、介质和程序产品的应用场景图;
[0021]图2示意性示出了根据本公开实施例的多源异构日志数据处理方法的流程图;
[0022]图3示意性示出了根据本公开实施例的日志处理与特征提取分类图;
[0023]图4示意性示出了根据本公开实施例的元数据发现过程的流程图;
[0024]图5示意性示出了根据本公开实施例的多源异构日志数据处理装置的结构框图;以及
[0025]图6示意性示出了根据本公开实施例的适于实现多源异构日志数据处理方法的电子设备的方框图。
具体实施方式
[0026]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构日志数据处理方法,包括:根据多源异构日志数据源生成元数据对象;对所述多源异构日志数据源进行日志分析,得到日志分析结果;根据所述元数据对象和所述日志分析结果得到元数据关系;根据元数据关系和元数据对象生成所述多源异构日志数据源的元数据。2.根据权利要求1所述的数据处理方法,所述根据多源异构日志数据源生成元数据对象包括:对所述多源异构日志数据源进行数据导入检查;在通过数据导入检查后,根据数据存储组件抽取所述多源异构日志数据源的模式;根据所述模式抽取所述多源异构日志数据源的关键信息;根据关键信息生成所述元数据对象。3.根据权利要求1所述的数据处理方法,所述对所述多源异构日志数据源进行日志分析,得到日志分析结果包括:根据所述多源异构日志数据源抽取目标日志;对目标日志进行预处理;根据预处理后的目标日志获取所有用户的上网记录;根据上网记录进行日志分析,得到所述日志分析的结果。4.根据权利要求2所述的数据处理方法,所述对所述多源异构日志数据源进行数据导入检查包括:检查所述多源异构日志数据源的命名、格式、数据类型是否合法;若所述多源异构日志数据源的命名、格式、数据类型合法,则通过所述数据导入检查。5.根据权利要求2所述的数据处理方法,所述根据所述模式抽取所述多源异构日志数据源的关键信息包括:根据所述模式,对所述多源异构日志数据源进行语法和语义分析;根据所述语法和语义分析的结果得到所...

【专利技术属性】
技术研发人员:李川黄友俊李星吴建平
申请(专利权)人:赛尔网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1