一种应用识别情报库的数据筛选方法及装置制造方法及图纸

技术编号:33950206 阅读:25 留言:0更新日期:2022-06-29 22:15
本发明专利技术公开了一种应用识别情报库的数据筛选方法及装置,涉及网络安全技术领域,主要目的是在完整保留有效可识别应用的字段信息的情况下,实现对网络流量数据的精炼和压缩,从而减少情报库中无效内容冗余,以提升情报库的识别效率。本发明专利技术主要的技术方案为:将采集的目标流量解析为预设格式的报文数据;根据预设规则处理所述报文数据中无法识别流量来源的数据,得到可识别数据;利用预设标签对所述可识别数据进行分类,并对同一分类的所述可识别数据进行聚类计算,得到至少一个数据集;从所有分类对应的所述数据集中分别提取至少一条所述可识别数据,添加至应用识别情报库中。本发明专利技术用于应用识别情报库的数据筛选。本发明专利技术用于应用识别情报库的数据筛选。本发明专利技术用于应用识别情报库的数据筛选。

【技术实现步骤摘要】
一种应用识别情报库的数据筛选方法及装置


[0001]本专利技术涉及网络安全
,尤其涉及一种应用识别情报库的数据筛选方法及装置。

技术介绍

[0002]在网络的入口处对应用程序的识别是非常重要的,无论是网络安全产品,还是专业的流量分析引擎,应用流量的准确识别不但可洞悉整个网络的运行情况,而且可针对具体需求做用户行为的准确管控,这在一定程度上既可保证业务流的高效运行,也可预防由于内网中毒引起的断网事件。因此,需要建立应用识别情报库,以实现对与应用程序相关的网络流量的快速识别,但如果应用识别情报库建立时包含的内容过于冗余且包含很多不可标记应用的内容,就会在对应用程序相关的网络流量识别时,影响识别的效率。
[0003]目前,在对应用识别情报库建立时,针对网络流量数据的处理方法一般是在解析网络流量后,通过提取部分字段信息并去重的方式以减少字段信息内容冗余,然而,可识别应用的字段信息在网络流量中的位置以及名称可谓是五花八门,仅提取部分字段则会丢失其他有效的可识别应用的字段信息,导致容易发生漏识别的情况。因此,如何在保证情报库建立时完整保留有效可识别应用的字段信息的情况下,实现对网络流量数据的精炼和压缩成为目前噩待解决的问题。

技术实现思路

[0004]鉴于上述问题,本专利技术提供一种应用识别情报库的数据筛选方法、系统及电子设备,主要目的是在完整保留有效可识别应用的字段信息的情况下,实现对网络流量数据的精炼和压缩,从而减少情报库中无效内容冗余,以提升情报库的识别效率。
[0005]为解决上述技术问题,本专利技术提出以下方案:
[0006]第一方面,本专利技术提供了一种应用识别情报库的数据筛选方法,所述方法包括:
[0007]将采集的目标流量解析为预设格式的报文数据;
[0008]根据预设规则处理所述报文数据中无法识别流量来源的数据,得到可识别数据;
[0009]利用预设标签对所述可识别数据进行分类,并对同一分类的所述可识别数据进行聚类计算,得到至少一个数据集;
[0010]从所有分类对应的所述数据集中分别提取至少一条所述可识别数据,添加至应用识别情报库中。
[0011]第二方面,本专利技术提供了一种应用识别情报库的数据筛选装置,所述装置包括:
[0012]解析单元,用于将采集的目标流量解析为预设格式的报文数据;
[0013]处理单元,用于根据预设规则处理所述解析单元中获得的报文数据中无法识别流量来源的数据,得到可识别数据;
[0014]计算单元,用于利用预设标签对所述处理单元中获得的可识别数据进行分类,并对同一分类的所述可识别数据进行聚类计算,得到至少一个数据集;
[0015]提取单元,用于从所述计算单元中所有分类对应的所述数据集中分别提取至少一条所述可识别数据;
[0016]添加单元,用于将所述提取单元中获取的至少一条所述可识别数据添加至应用识别情报库中。
[0017]为了实现上述目的,根据本专利技术的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的应用识别情报库的数据筛选方法。
[0018]为了实现上述目的,根据本专利技术的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的应用识别情报库的数据筛选方法。
[0019]借由上述技术方案,本专利技术提供的一种应用识别情报库的数据筛选方法及装置,通过本专利技术提供的数据筛选方案,可以在应用识别数据库的建立时实现对流量数据的筛选需求,当流量数据解析为报文数据后,即可根据预设规则对报文数据中无法识别流量来源的数据进行处理,从而对报文数据中的一些无法识别流量来源的数据进行去除,以实现对流量数据中冗余字段内容的删减,再利用预设标签对可识别数据进行分类,使得相同预设标签的可识别数据能够划分为一类,然后对同一分类的可识别数据进行聚类计算,以减小聚类计算的计算量,降低聚类计算的计算负担,而基于聚类计算而得到不同的数据集,其可以理解为从不同的维度来识别该应用的特征数据,在数据集所对应的维度足够全面时,则可以认为保留了识别应用所需的有效且完整的字段信息,最后从所有分类对应的数据集中分别提取至少一条可识别数据,添加至应用识别情报库中,从而在保证情报库建立时完整保留有效可识别应用的字段信息的情况下,实现对网络流量数据的精炼和压缩,进而减少情报库的无效内容冗余,以提升情报库的识别效率。
[0020]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0021]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0022]图1示出了本专利技术实施例提供的一种应用识别情报库的数据筛选方法流程图;
[0023]图2示出了本专利技术实施例提供的另一种应用识别情报库的数据筛选方法流程图;
[0024]图3示出了本专利技术实施例提供的一种应用识别情报库的数据筛选装置的组成框图;
[0025]图4示出了本专利技术实施例提供的另一种应用识别情报库的数据筛选装置的组成框图。
具体实施方式
[0026]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例
所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0027]在网络安全
中,在网络的入口处对应用程序的识别是非常重要的,针对于网络流量的管理,往往会通过建立应用识别情报库的方式对应用进行识别,而建立应用识别情报库是由不同特征流量数据样本所组成的,而如果其中与应用识别无关的流量数据越多,就会影响情报库对应用流量识别的效率,而现有针对网络流量数据的处理方法一般是在解析网络流量后,通过提取部分字段信息并去重的方式以减少字段信息内容冗余,然而,可识别应用的字段信息在网络流量中的位置以及名称可谓是五花八门,仅提取部分字段则会丢失其他有效的可识别应用的字段信息,导致容易发生漏识别的情况,而如果对于应用的漏识别率过高,就会导致识别的不精准,放过本不该放过的流量,对网络安全造成威胁,例如某些应用携带安全漏洞,造成安全隐患,且某些应用会上传个人隐私信息,造成个人信息泄漏等,给应用的识别提出了更为严峻的挑战。因此,如何在保证情报库建立时完整保留有效可识别应用的字段信息的情况下,实现对网络流量数据的精炼和压缩成为目前噩待解决的问题。为此,本专利技术实施例提供了一种应用识别情报库的数据筛选方法,通过该方法能够在完整保留有效可识别应用的字段信息的情况下,实现对网络流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用识别情报库的数据筛选方法,其特征在于,包括:将采集的目标流量解析为预设格式的报文数据;根据预设规则处理所述报文数据中无法识别流量来源的数据,得到可识别数据;利用预设标签对所述可识别数据进行分类,并对同一分类的所述可识别数据进行聚类计算,得到至少一个数据集;从所有分类对应的所述数据集中分别提取至少一条所述可识别数据,添加至应用识别情报库中。2.根据权利要求1所述的方法,其特征在于,将采集的目标流量解析为预设格式的报文数据,包括:根据所述目标流量中的请求对象获取对应的所述报文数据;以键值对格式对所述报文数据的请求头内容进行解析,得到解析数据,所述键值对格式中,键为所述请求头内容中的字段名,值为所述字段名所对应的字段信息。3.根据权利要求2中所述的方法,其特征在于,根据预设规则处理所述报文数据中无法识别流量来源的数据,得到可识别数据,包括:获取所述解析数据中指定字段对应的所述字段信息;基于处理所述指定字段的所述预设规则对所述字段信息进行处理,得到所述可识别数据,所述预设规则用于清理所述指定字段的所述字段信息中不具有识别流量来源的数据信息。4.根据权利要求3所述的方法,其特征在于,基于处理所述指定字段的所述预设规则对所述字段信息进行处理,包括:检测所述指定字段在处理后的所述字段信息是否为空;若为空,则将所述指定字段从所述解析数据中删除。5.根据权利要求1

4中任一项所述的方法,其特征在于,利用预设标签对所述可识别数据进行分类,并对同一分类的所述可识别数据进行聚类计算,得到至少一个数据集,包括:获取所述可识别数据的预设标签,所述预设标签用于表征所述可识别数据对应的所述字段信息中的域名信息;将同一所述预设标签所对应的所述可识别数据划分为同一分类;利用层次聚类算法计算所述同一分类中任意两个所述可识别数据之间的相似距离,所述相似距离是基于所述可识别数据的键值对信息计算得到的;根据所述相似距离,将具有相同相似距离的所述可识别数据划分至同一所述数据集中。6.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:孙磊
申请(专利权)人:奇安信网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1