提取日志数据的方法及装置制造方法及图纸

技术编号:15255013 阅读:97 留言:0更新日期:2017-05-02 22:21
本发明专利技术公开了一种提取日志数据的方法及装置,涉及数据分析技术领域,解决了现有的提取日志中特定内容准确性较低的问题。本发明专利技术的方法包括:获取目标字段;分别依据不同的生成策略生成目标字段对应的正则表达式集合;根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。本发明专利技术应用于日志分析的过程中。

Method and device for extracting log data

The invention discloses a method and a device for extracting log data, which relates to the technical field of data analysis. The method of the invention comprises: acquiring the target field; according to regular expressions corresponding to different fields to generate the target generation strategy set; according to each regular expression regular expressions in the collection were treated, log, regular, regular expression matching to each of a matching data; calculate each matching data corresponding to the weight score of all regular the expression of regular expressions and accounted for all of the weight and the proportion of the score value, the corresponding matching data; select the matching value matching data to determine the maximum matching log and other similar target field data. The method is applied in the process of log analysis.

【技术实现步骤摘要】

本专利技术涉及数据分析
,尤其涉及一种提取日志数据的方法及装置
技术介绍
在对大量的日志分析时,通常需要提取每条日志中的某些特定的内容,比如IP地址、生成时间等等。虽然日志内容通常遵循一定的模式,但是这种模式往往是隐晦的,是不容易直观获取到的。所以在提取某些特定的内容时,通常会根据提取的内容设计对应的正则表达式,然后依据正则表达式来提取日志中特定的内容。通常正则表达式的准确度直接影响提取内容的准确率,因此正则表达式的生成至关重要。现有的生成正则表达式的方式主要有两种:一种是人工方式,另一种是自动化方式。其中人工方式即通过人工的手段去为每一个字段的提取编写正则表达式,这种方式有一定的技术门槛,并且日志的模式可能会变化,所以还需要不断的更新正则表达式,这样增加了正则表达式维护的难度。自动化方式即通过软件自动生成正则表达式。在实际的应用中,对于自动化生成正则表达式的生成策略有多种,比如贪婪模式、勉强模式、侵占模式等等,但是每一种生成策略得到的正则表达式在实际的应用中都有可能出现提取内容不正确或者提取不到所需要的内容的情况,因此导致提取的准确度较低。
技术实现思路
鉴于上述问题,本专利技术提供一种提取日志数据的方法及装置,用以解决现有的提取日志中特定内容准确性较低的问题。为解决上述技术问题,第一方面,本专利技术提供了一种提取日志数据的方法,所述方法包括:获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。可选的,所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据,包括:将最大的匹配值与预设匹配阈值比较;若大于预设匹配阈值,则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据;若小于等于预设匹配阈值,则对待匹配日志的提取失败。可选的,在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后,所述方法进一步包括:将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大,得到新的权重得分;依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。可选的,在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后,所述方法进一步包括:判断待匹配日志中是否匹配出匹配数据;若匹配到匹配数据,则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;若没有匹配到匹配数据,则对待匹配日志的提取失败。可选的,在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后,所述方法进一步包括:将所述正则表达式集合中的所有正则表达式输出展示;接收修改正则表达式的修改请求,以根据所述修改请求修改对应的正则表达式。可选的,若获取到多个目标字段,所述方法进一步包括:分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据;在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后,对下一条待匹配日志执行确定与所述目标字段同类别的数据。可选的,在所述获取目标字段之后,所述方法进一步包括:输出填写所述目标字段的字段名称的提示框,以使外部通过所述提示框输入字段名称;接收所述字段名称,以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。第二方面,本专利技术提供了一种提取日志数据的装置,所述装置包括:获取单元,用于获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;生成单元,用于分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;匹配单元,用于根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;计算单元,用于计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;数据确定单元,用于选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。可选的,所述数据确定单元包括:比较模块,用于将最大的匹配值与预设匹配阈值比较;第一确定模块,用于若大于预设匹配阈值,则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据;第二确定模块,用于若小于等于预设匹配阈值,则对待匹配日志的提取失败。可选的,所述装置进一步包括:调节单元,用于在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后,将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大,得到新的权重得分;所述计算单元,还用于依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。可选的,所述装置进一步包括:判断单元,用于在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后,判断待匹配日志中是否匹配出匹配数据;执行单元,用于若匹配到匹配数据,则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;提取失败确定单元,用于若没有匹配到匹配数据,则对待匹配日志的提取失败。可选的,所述装置进一步包括:展示单元,用于在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后,将所述正则表达式集合中的所有正则表达式输出展示;修改请求接收单元,用于接收修改正则表达式的修改请求,以根据所述修改请求修改对应的正则表达式。可选的,所述数据确定单元,还用于若获取到多个目标字段,分别针对每个目标字段单独执行确定所述待匹配的日志中与所述目标字段同类别的数据;以及在依据最后一个目标字段执行确定所述待匹配的日志中与所述目标字段同类别的数据后,对下一条待匹配日志执行确定与所述目标字段同类别的数据。可选的,所述装置进一步包括:输出单元,用于在所述获取目标字段之后,输出填写所述目标字段的字段名称的提示框,以使外部通过所述提示框输入字段名称;字段名称接收单元,用于接收所述字段名称,以使所述字段名称与从所有待匹配日志中提取出的与目标字段同类别的数据关联显示。借由上述技术方案,本专利技术提供的提取日志数据的方法及装置,在提取日志中的目标字段对应的同类别的数据时,结合多个正则表达式匹配的结果综合确定提取结果,其中每个正则表达式对应一个正则表达式生成策略。现有技术中当通过正则表达式对日志进行目标字段对应的同类别的数据提取时,是由一个正则表达式来确定提取结果,而本专利技术中是将由多数个正则表达式匹配出的同样的数据作为提取结果,这样即使某一种或少数几种正则表达式匹配到不准确的内容,也不会本文档来自技高网...

【技术保护点】
一种提取日志数据的方法,其特征在于,所述方法包括:获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

【技术特征摘要】
1.一种提取日志数据的方法,其特征在于,所述方法包括:获取目标字段,所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据;分别依据不同的生成策略生成所述目标字段对应的正则表达式集合,所述正则表达式集合中每一个正则表达式对应一种生成策略;根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配,每个正则表达式至多匹配出一个匹配数据;计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。2.根据权利要求1所述的方法,其特征在于,所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据,包括:将最大的匹配值与预设匹配阈值比较;若大于预设匹配阈值,则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据;若小于等于预设匹配阈值,则对待匹配日志的提取失败。3.根据权利要求1或2中任一项所述的方法,其特征在于,在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后,所述方法进一步包括:将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大,得到新的权重得分;依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。4.根据权利要求3所述的方法,其特征在于,在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后,所述方法进一步包括:判断待匹配日志中是否匹配出匹配数据;若匹配到匹配数据,则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值,得到对应匹配数据的匹配值;若没有匹配到匹配数据,则对待匹配日志的提取失败。5.根据权利要求4所述的方法,其特征在于,在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后,所述方法进一步包括:将所述正则表达式集合中的所有正则表达式输出展示;接收修改正则表达式的修改请求,以根据所述修改请求修改对应的正则表达式。6.根据权利要求5...

【专利技术属性】
技术研发人员:吴擒龙
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1