一种应用识别情报库的数据筛选方法及装置制造方法及图纸

技术编号：33950206 阅读：25 留言：0更新日期：2022-06-29 22:15

本发明专利技术公开了一种应用识别情报库的数据筛选方法及装置，涉及网络安全技术领域，主要目的是在完整保留有效可识别应用的字段信息的情况下，实现对网络流量数据的精炼和压缩，从而减少情报库中无效内容冗余，以提升情报库的识别效率。本发明专利技术主要的技术方案为：将采集的目标流量解析为预设格式的报文数据；根据预设规则处理所述报文数据中无法识别流量来源的数据，得到可识别数据；利用预设标签对所述可识别数据进行分类，并对同一分类的所述可识别数据进行聚类计算，得到至少一个数据集；从所有分类对应的所述数据集中分别提取至少一条所述可识别数据，添加至应用识别情报库中。本发明专利技术用于应用识别情报库的数据筛选。本发明专利技术用于应用识别情报库的数据筛选。本发明专利技术用于应用识别情报库的数据筛选。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用识别情报库的数据筛选方法及装置

[0001]本专利技术涉及网络安全
，尤其涉及一种应用识别情报库的数据筛选方法及装置。

技术介绍

[0002]在网络的入口处对应用程序的识别是非常重要的，无论是网络安全产品，还是专业的流量分析引擎，应用流量的准确识别不但可洞悉整个网络的运行情况，而且可针对具体需求做用户行为的准确管控，这在一定程度上既可保证业务流的高效运行，也可预防由于内网中毒引起的断网事件。因此，需要建立应用识别情报库，以实现对与应用程序相关的网络流量的快速识别，但如果应用识别情报库建立时包含的内容过于冗余且包含很多不可标记应用的内容，就会在对应用程序相关的网络流量识别时，影响识别的效率。
[0003]目前，在对应用识别情报库建立时，针对网络流量数据的处理方法一般是在解析网络流量后，通过提取部分字段信息并去重的方式以减少字段信息内容冗余，然而，可识别应用的字段信息在网络流量中的位置以及名称可谓是五花八门，仅提取部分字段则会丢失其他有效的可识别应用的字段信息，导致容易发生漏识别的情况。因此，如何在保证情报库建立时完整保留有效可识别应用的字段信息的情况下，实现对网络流量数据的精炼和压缩成为目前噩待解决的问题。

技术实现思路

[0004]鉴于上述问题，本专利技术提供一种应用识别情报库的数据筛选方法、系统及电子设备，主要目的是在完整保留有效可识别应用的字段信息的情况下，实现对网络流量数据的精炼和压缩，从而减少情报库中无效内容冗余，以提升情报库的识别效率。
[0005]为解决上述技...

【技术保护点】

【技术特征摘要】
1.一种应用识别情报库的数据筛选方法，其特征在于，包括：将采集的目标流量解析为预设格式的报文数据；根据预设规则处理所述报文数据中无法识别流量来源的数据，得到可识别数据；利用预设标签对所述可识别数据进行分类，并对同一分类的所述可识别数据进行聚类计算，得到至少一个数据集；从所有分类对应的所述数据集中分别提取至少一条所述可识别数据，添加至应用识别情报库中。2.根据权利要求1所述的方法，其特征在于，将采集的目标流量解析为预设格式的报文数据，包括：根据所述目标流量中的请求对象获取对应的所述报文数据；以键值对格式对所述报文数据的请求头内容进行解析，得到解析数据，所述键值对格式中，键为所述请求头内容中的字段名，值为所述字段名所对应的字段信息。3.根据权利要求2中所述的方法，其特征在于，根据预设规则处理所述报文数据中无法识别流量来源的数据，得到可识别数据，包括：获取所述解析数据中指定字段对应的所述字段信息；基于处理所述指定字段的所述预设规则对所述字段信息进行处理，得到所述可识别数据，所述预设规则用于清理所述指定字段的所述字段信息中不具有识别流量来源的数据信息。4.根据权利要求3所述的方法，其特征在于，基于处理所述指定字段的所述预设规则对所述字段信息进行处理，包括：检测所述指定字段在处理后的所述字段信息是否为空；若为空，则将所述指定字段从所述解析数据中删除。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，利用预设标签对所述可识别数据进行分类，并对同一分类的所述可识别数据进行聚类计算，得到至少一个数据集，包括：获取所述可识别数据的预设标签，所述预设标签用于表征所述可识别数据对应的所述字段信息中的域名信息；将同一所述预设标签所对应的所述可识别数据划分为同一分类；利用层次聚类算法计算所述同一分类中任意两个所述可识别数据之间的相似距离，所述相似距离是基于所述可识别数据的键值对信息计算得到的；根据所述相似距离，将具有相同相似距离的所述可识别数据划分至同一所述数据集中。6.根据权利要求4所述的方法，其特征在于...

【专利技术属性】
技术研发人员：孙磊，
申请(专利权)人：奇安信网神信息技术北京股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人