System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息技术,尤其是涉及一种关键词识别方法、装置和设备。
技术介绍
1、随着信息科技进步,各个业务系统、部门每天都会产生数量庞大、类型繁多的数据。某些重要的数据中可能会携带些独特的字符标识,该字符标识可能为各类字符a-z或者0-9构成,例如:安全设备告警日志中包含的某些攻击特征、网络攻防演习中攻击方在攻击载荷上添加的红方标识。而要从海量且格式不一的数据中筛出具有特定关键词或其变形的目标数据,并不容易。
2、常用的检索方式是正则匹配。然而,正则匹配对应的正则表达式的组成需要包含字符及其变形,才能检索到变形的关键词。当表达式中缺少相应变形词时,可能检索结果并不准确。
技术实现思路
1、本申请目的是提供一种关键词识别方法、装置和设备,能够提高检索的准确度。
2、第一方面,提供了一种关键词识别方法,包括:
3、获取待检索日志以及预设关键词,其中,所述预设关键词包括多个关键字符;
4、获取字符识别模型,所述字符识别模型是基于多个字符各自对应的训练向量文件集对knn模型进行训练得到的,每个字符对应的训练向量文件集包括字符的不同样式对应的向量文件;利用所述字符识别模型,确定所述待检索日志中的各个待检索字符对应的相似度集,其中,每个待检索字符对应的相似度集包括待检索字符与所述多个字符各自对应的相似度值;
5、根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定所述待检索日志中是否存在所述预设关键词。
6
7、在一种可能的实现方式中,所述根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定所述待检索日志中是否存在所述预设关键词,包括:
8、使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词;
9、若是,则确定所述候选关键词的置信度;
10、根据所述置信度和预设置信度阈值,确定所述候选关键词是否为所述预设关键词。
11、通过上述技术方案,通过滑动窗口方式基于待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,进行初步筛选出待检索日志中的所有候选的变形关键词或者预设关键词作为候选关键词,可以减少由于某个字符变形导致其与对应的关键字符相似度低造成的误检情况;再基于候选关键词的置信度和预设置信度阈值的大小确定候选关键词是否为预设关键词,提高了识别关键词的精准度。
12、在一种可能的实现方式中,所述利用字符识别模型确定所述待检索日志中的各个待检索字符对应的相似度集,包括:
13、根据预设忽略字符,对所述待检索日志进行预处理,得到预处理后待检索日志;
14、利用所述字符识别模型,确定所述预处理后待检索日志中的各个待检索字符对应的相似度集。
15、通过上述技术方案,根据预设忽略字符进行待检索日志的预处理,以便于减少其他异常异常字符带来的影响,提高检索效率。
16、在一种可能的实现方式中,当所述预设关键词不存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,所述使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词,包括:
17、忽略所述待检索日志中的分隔字符,并根据待检索字符的相似度集,判断待检索字符与所述待匹配关键字符的相似度是否匹配,其中,当首次匹配时,待检索字符为忽略分隔字符后的待检索日志中的第一个字符,所述待匹配关键字符为所述预设关键词中的第一个字符;
18、若匹配,则确定待检索字符的下一字符为新的待检索字符,待匹配关键字符的下一字符为新的待匹配关键字符;若不匹配,则判断所述待匹配关键字符是否为第一个关键字符,若为第一个关键字符,则确定待检索字符的下一字符为新的待检索字符,待匹配关键字符不变,若不为第一个关键字符,则确定待检索字符不变,待匹配关键字符为第一个关键字符;
19、在确定新的待检索字符和新的待匹配关键字符后,重复执行上述步骤,直至确定出所述待检索日志中是否存在候选关键词。
20、通过上述技术方案,当预设关键词不存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,在进行待检索日志中的待检索字符和待匹配关键字符的匹配过程中,忽略待检索日志中的分隔字符,减少由于将关键字符和分隔字符匹配造成的错误确定不存在候选关键词的情况,提高了候选关键词确定的精准度。
21、在一种可能的实现方式中,当所述预设关键词存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,所述使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词,包括:
22、判断所述预设关键词中是否存在重叠字符,以及判断所述预设关键词中的重叠字符是否为目标关键字符;
23、若不存在重叠字符,或,存在重叠字符但是重叠字符不为目标关键字符,则根据待检索日志中的各个待检索字符对应的相似度集、各个待检索字符是否为分隔字符以及各个关键字符,确定所述待检索日志中是否存在候选关键词;
24、若存在重叠字符,且,重叠字符为目标关键字符,则确定重叠字符长度,根据重叠字符长度、待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定所述待检索日志中是否存在候选关键词。
25、通过上述技术方案,在预设关键词存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符的情况下,如果预设关键词中不存在重叠字符,或,存在重叠字符但是重叠字符不为目标关键字符,则按照依次匹配的方式确定候选关键词;若存在重叠字符,且,重叠字符为目标关键字符,则确定重叠字符长度,根据重叠字符长度、待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定待检索日志中是否存在候选关键词,能够提高候选关键词的确定效率。
26、在一种可能的实现方式中,还包括:
27、判断当前的待检索日志的未检索字符的总量是否小于所述预设关键词的关键字符总量;
28、若是,则确定所述待检索日志中不存在所述预设关键词。
29、通过上述技术方案,通过判断当前的待检索日志的未检索字符的总量是否小于所述预设关键词的关键字符总量的大小本文档来自技高网...
【技术保护点】
1.一种关键词识别方法,其特征在于,包括:
2.根据权利要求1所述的关键词识别方法,其特征在于,所述根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定所述待检索日志中是否存在所述预设关键词,包括:
3.根据权利要求2所述的关键词识别方法,其特征在于,所述利用字符识别模型确定所述待检索日志中的各个待检索字符对应的相似度集,包括:
4.根据权利要求3所述的关键词识别方法,其特征在于,当所述预设关键词不存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,所述使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词,包括:
5.根据权利要求3所述的关键词识别方法,其特征在于,当所述预设关键词存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,所述使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词,包括:
6.根据权利要求4
7.根据权利要求1至6任一项所述的关键词识别方法,其特征在于,还包括:
8.根据权利要求7所述的关键词识别方法,其特征在于,所述利用所述多个字符类别各自对应的训练向量文件集,对第二KNN模型进行训练,得到第二初始字符识别模型,包括:
9.一种关键词识别装置,其特征在于,包括:
10.一种电子设备,其特征在于,其包括:
...【技术特征摘要】
1.一种关键词识别方法,其特征在于,包括:
2.根据权利要求1所述的关键词识别方法,其特征在于,所述根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符,确定所述待检索日志中是否存在所述预设关键词,包括:
3.根据权利要求2所述的关键词识别方法,其特征在于,所述利用字符识别模型确定所述待检索日志中的各个待检索字符对应的相似度集,包括:
4.根据权利要求3所述的关键词识别方法,其特征在于,当所述预设关键词不存在与分隔字符相似度大于分隔字符相似度阈值的目标关键字符时,所述使用滑动窗口方式,根据所述待检索日志中的各个待检索字符对应的相似度集和各个关键字符以及预设相似度阈值,确定所述待检索日志中是否存在候选关键词,包括:
5.根据权利要求3所...
【专利技术属性】
技术研发人员:丁国益,张永元,何海军,段伟恒,
申请(专利权)人:北京天防安全科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。