提取日志数据的方法及装置制造方法及图纸

技术编号：15255013 阅读：112 留言：0更新日期：2017-05-02 22:21

本发明专利技术公开了一种提取日志数据的方法及装置，涉及数据分析技术领域，解决了现有的提取日志中特定内容准确性较低的问题。本发明专利技术的方法包括：获取目标字段；分别依据不同的生成策略生成目标字段对应的正则表达式集合；根据正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；选择匹配值最大的匹配数据确定为待匹配日志中与目标字段同类别的数据。本发明专利技术应用于日志分析的过程中。

Method and device for extracting log data

The invention discloses a method and a device for extracting log data, which relates to the technical field of data analysis. The method of the invention comprises: acquiring the target field; according to regular expressions corresponding to different fields to generate the target generation strategy set; according to each regular expression regular expressions in the collection were treated, log, regular, regular expression matching to each of a matching data; calculate each matching data corresponding to the weight score of all regular the expression of regular expressions and accounted for all of the weight and the proportion of the score value, the corresponding matching data; select the matching value matching data to determine the maximum matching log and other similar target field data. The method is applied in the process of log analysis.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分析
，尤其涉及一种提取日志数据的方法及装置。
技术介绍
在对大量的日志分析时，通常需要提取每条日志中的某些特定的内容，比如IP地址、生成时间等等。虽然日志内容通常遵循一定的模式，但是这种模式往往是隐晦的，是不容易直观获取到的。所以在提取某些特定的内容时，通常会根据提取的内容设计对应的正则表达式，然后依据正则表达式来提取日志中特定的内容。通常正则表达式的准确度直接影响提取内容的准确率，因此正则表达式的生成至关重要。现有的生成正则表达式的方式主要有两种：一种是人工方式，另一种是自动化方式。其中人工方式即通过人工的手段去为每一个字段的提取编写正则表达式，这种方式有一定的技术门槛，并且日志的模式可能会变化，所以还需要不断的更新正则表达式，这样增加了正则表达式维护的难度。自动化方式即通过软件自动生成正则表达式。在实际的应用中，对于自动化生成正则表达式的生成策略有多种，比如贪婪模式、勉强模式、侵占模式等等，但是每一种生成策略得到的正则表达式在实际的应用中都有可能出现提取内容不正确或者提取不到所需要的内容的情况,因此导致提取的准确度较低。
技术实现思路
鉴于上述问题，本专利技术提供一种提取日志数据的方法及装置，用以解决现有的提取日志中特定内容准确性较低的问题。为解决上述技术问题，第一方面，本专利技术提供了一种提取日志数据的方法，所述方法包括：获取目标字段，所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据；分别依据不同的生成策略生成所述目标字段对应的正则表达式集合，所述正则表达式集合中每一个正...

【技术保护点】
一种提取日志数据的方法，其特征在于，所述方法包括：获取目标字段，所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据；分别依据不同的生成策略生成所述目标字段对应的正则表达式集合，所述正则表达式集合中每一个正则表达式对应一种生成策略；根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。

【技术特征摘要】
1.一种提取日志数据的方法，其特征在于，所述方法包括：获取目标字段，所述目标字段为用户从预设日志样本中通过输入设备选择的并且用于从待匹配日志中提取与所述目标字段同类别的数据；分别依据不同的生成策略生成所述目标字段对应的正则表达式集合，所述正则表达式集合中每一个正则表达式对应一种生成策略；根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配，每个正则表达式至多匹配出一个匹配数据；计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据。2.根据权利要求1所述的方法，其特征在于，所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据，包括：将最大的匹配值与预设匹配阈值比较；若大于预设匹配阈值，则将匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据；若小于等于预设匹配阈值，则对待匹配日志的提取失败。3.根据权利要求1或2中任一项所述的方法，其特征在于，在所述选择匹配值最大的匹配数据确定为待匹配日志中与所述目标字段同类别的数据之后，所述方法进一步包括：将与匹配值最大的匹配数据对应的每个正则表达式的权重得分增大，得到新的权重得分；依据新的权重得分计算下一条待匹配日志对应的匹配数据的匹配值。4.根据权利要求3所述的方法，其特征在于，在根据所述正则表达式集合中的每个正则表达式分别对待匹配日志进行正则匹配之后，所述方法进一步包括：判断待匹配日志中是否匹配出匹配数据；若匹配到匹配数据，则执行计算每个匹配数据对应的所有正则表达式的权重得分之和占所有的正则表达式的权重得分之和的比重值，得到对应匹配数据的匹配值；若没有匹配到匹配数据，则对待匹配日志的提取失败。5.根据权利要求4所述的方法，其特征在于，在所述分别依据不同的生成策略生成所述目标字段对应的正则表达式集合之后，所述方法进一步包括：将所述正则表达式集合中的所有正则表达式输出展示；接收修改正则表达式的修改请求，以根据所述修改请求修改对应的正则表达式。6.根据权利要求5...

【专利技术属性】
技术研发人员：吴擒龙，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人