一种特征信息的提取方法及装置制造方法及图纸

技术编号:15652474 阅读:144 留言:0更新日期:2017-06-17 05:59
本发明专利技术提供一种特征信息的提取方法及装置,所述方法包括:将两个以上待提取报文中的其中一个待提取报文确定为基准报文,所述两个以上待提取报文中的每一个待提取报文的报文类型相同;将所述基准报文的第一预设字段中的字段信息确定为基准字段信息;基于预设匹配规则,分别将所述两个以上待提取报文中的除所述基准报文以外的每一个待提取报文的第二预设字段中的字段信息与所述基准字段信息进行匹配;当匹配成功的次数大于或者等于预设匹配阈值时,基于所述基准字段信息确定特征信息。应用本发明专利技术实施例,解决了特征信息提取耗时长,提取准确率低的问题。

【技术实现步骤摘要】
一种特征信息的提取方法及装置
本专利技术涉及网络通信
,尤其涉及一种特征信息的提取方法及装置。
技术介绍
现有技术中,通过Wireshark软件对网卡中流经的业务流量进行信息抓取,期间会抓取到多种不同业务应用所产生的业务流量,例如,微信应用产生的业务流量,QQ应用产生的业务流量等。当管理人员只需查看QQ应用产生的业务流量时,管理人员从全部业务流量中对报文携带的特征信息进行提取,当需要提取的特征信息数量庞大时,特征信息的提取过程耗时长,且可能因提取不当遗失目标特征信息或误选非目标特征信息,提取准确率低。
技术实现思路
有鉴于此,本专利技术提供一种特征信息的提取方法及装置,以解决特征信息提取耗时长,提取准确率低的问题。为实现上述目的,本专利技术提供技术方案如下:根据本专利技术的第一方面,提出了一种特征信息的提取方法,所述方法包括:将两个以上待提取报文中的其中一个待提取报文确定为基准报文,所述两个以上待提取报文中的每一个待提取报文的报文类型相同;将所述基准报文的第一预设字段中的字段信息确定为基准字段信息;基于预设匹配规则,分别将所述两个以上待提取报文中的除所述基准报文以外的每一个待提取报文的第二预设字段中的字段信息与所述基准字段信息进行匹配;当匹配成功的次数大于或者等于预设匹配阈值时,基于所述基准字段信息确定特征信息。根据本专利技术的第二方面,提出了一种特征信息的提取装置,包括:基准报文确定模块,用于将两个以上待提取报文中的其中一个待提取报文确定为基准报文,所述两个以上待提取报文中的每一个待提取报文的报文类型相同;字段信息确定模块,用于将所述基准报文确定模块中确定的所述基准报文的第一预设字段中的字段信息确定为基准字段信息;字段信息匹配模块,用于基于预设匹配规则,分别将所述两个以上待提取报文中的除所述基准报文以外的每一个待提取报文的第二预设字段中的字段信息与所述字段信息确定模块中确定的所述基准字段信息进行匹配;特征信息确定模块,用于当所述字段信息匹配模块中匹配成功的次数大于或者等于预设匹配阈值时,基于所述基准字段信息确定特征信息。由以上技术方案可见,管理设备将两个以上待提取报文中的其中一个待提取报文确定为基准报文,并将基准报文的第一预设字段中的字段信息确定为基准字段信息。基于预设匹配规则,当两个以上待提取报文中的除基准报文以外的每一个待提取报文的第二预设字段中的字段信息与基准字段信息匹配成功的次数大于或者等于预设匹配阈值时,管理设备基于基准字段信息确定特征信息,减少了特征信息提取过程的耗时,且避免了因提取不当遗失目标特征信息或误选非目标特征信息,提高了特征信息提取的准确率。附图说明图1是本专利技术提供的特征信息的提取方法所适用的网络架构图;图2是本专利技术提供的一个特征信息的提取方法的实施例流程图;图3是本专利技术提供的另一个特征信息的提取方法的实施例流程图;图4是本专利技术提供的一种管理设备的硬件结构图;图5是本专利技术提供的一个特征信息的提取装置的实施例框图;图6是本专利技术提供的另一个特征信息的提取装置的实施例框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本专利技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1是本专利技术提供的特征信息的提取方法所适用的网络架构图,如图1所示,该网络架构图中包括:客户端11、防护设备12、服务设备13、管理设备14。其中,客户端11安装在个人计算机(PersonalComputer,简称为PC)上,客户端11还可以安装在手机、平板电脑、智能手表等终端设备上;防护设备12为具有安全防护功能的设备;服务设备13为向客户端11提供业务服务的服务器,例如提供即时沟通业务服务的服务器;管理设备14通过模拟客户端11产生的用户行为,从业务流量中提取特征信息,并将特征信息上传到防护设备12,以使防护设备12基于特征信息对客户端11所产生的与特征信息相同的行为进行识别,识别后可对该行为进行拦截或通过等预设动作,在另一实施例场景中,管理设备14也可以将提取到的特征信息上传至网页,为需要下载配置特征信息的设备提供下载服务。通常,管理设备14将两个以上待提取报文中的其中一个待提取报文确定为基准报文,两个以上待提取报文中的每一个待提取报文的报文类型相同,报文类型包括超文本传输协议(HyperTextTransferProtocol,简称为HTTP)报文、传输控制协议(TransmissionControlProtocol,简称为TCP)报文以及用户数据报协议(UserDatagramProtocol,简称为UDP)报文等。管理设备14将基准报文的第一预设字段中的字段信息确定为基准字段信息,此处对第一预设字段的长度不做限制,基于预设匹配规则,管理设备14分别将两个以上待提取报文中的除基准报文以外的每一个待提取报文的第二预设字段中的字段信息与基准字段信息进行匹配,第二预设字段与第一预设字段的长度相同。其中,针对不同类型的报文,预设匹配规则不同,例如,针对HTTP报文,HTTP报文头部字段中携带了较为关键的字段信息,通常只需关注HTTP报文头部字段中是否存在特征信息即可,因此预设匹配规则为针对HTTP报文头部字段中的字段信息进行匹配;针对TCP报文以及UDP报文,需要从报文的全部内容中进行特征查询,因此预设匹配规则为针对报文的整体进行匹配。当匹配成功的次数大于或者等于预设匹配阈值时,表示与基准字段信息相同的字段信息出现频次高,为具有相同业务服务的业务流量的可能性高,管理设备14将基准字段信息确定为特征信息。通过本专利技术实施例,当需要提取的特征信息数量庞大时,可以减少特征信息提取过程的耗时,且避免提取不当遗失目标特征信息或误选非目标特征信息,提高了特征信息提取的准确率。为对本专利技术进行进一步说明,提供下列实施例:图2是本专利技术提供的一个特征信息的提取方法的实施例流程图,结合图1进行示例性说明,如图2所示,包括如下步骤:步骤201:将两个以上待提取报文中的其中一个待提取报文确定为基准报文,两个以上待提取报文中的每一个待提取报文的报文类型相同。步骤202:将基准报文的第一预设字段中的字段信息确定为基准字段信息。步骤203:基于预设匹配规则,分别将两个以上待提取报文中的除基准报文以外的每一个待提取报文的第二预设字段中的字段信息本文档来自技高网...
一种特征信息的提取方法及装置

【技术保护点】
一种特征信息的提取方法,其特征在于,所述方法包括:将两个以上待提取报文中的其中一个待提取报文确定为基准报文,所述两个以上待提取报文中的每一个待提取报文的报文类型相同;将所述基准报文的第一预设字段中的字段信息确定为基准字段信息;基于预设匹配规则,分别将所述两个以上待提取报文中的除所述基准报文以外的每一个待提取报文的第二预设字段中的字段信息与所述基准字段信息进行匹配;当匹配成功的次数大于或者等于预设匹配阈值时,基于所述基准字段信息确定特征信息。

【技术特征摘要】
1.一种特征信息的提取方法,其特征在于,所述方法包括:将两个以上待提取报文中的其中一个待提取报文确定为基准报文,所述两个以上待提取报文中的每一个待提取报文的报文类型相同;将所述基准报文的第一预设字段中的字段信息确定为基准字段信息;基于预设匹配规则,分别将所述两个以上待提取报文中的除所述基准报文以外的每一个待提取报文的第二预设字段中的字段信息与所述基准字段信息进行匹配;当匹配成功的次数大于或者等于预设匹配阈值时,基于所述基准字段信息确定特征信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于类型标识确定所述两个以上待提取报文,所述类型标识用于标记一种报文类型。3.根据权利要求2所述的方法,其特征在于,所述基于类型标识确定所述两个以上待提取报文,包括:基于所述类型标识,从流经网卡的全部流量中确定所述两个以上待提取报文;或,基于所述类型标识,从已缓存的流量中确定所述两个以上待提取报文。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于类型标识及至少一个待匹配条件确定所述两个以上待提取报文,所述待匹配条件为针对所述类型标识标记的报文类型预设的。5.根据权利要求4所述的方法,其特征在于,所述基于类型标识及至少一个待匹配条件确定所述两个以上待提取报文,包括:查找获取到的报文中是否携带所述类型标识;当所述获取到的报文中携带所述类型标识时,将所述获取到的报文与所述至少一个待匹配条件中的每一个待匹配条件逐一进行匹配;当所述获取到的报文与所述每一个待匹配条件均匹配成功时,将所述获取到的报文确定为...

【专利技术属性】
技术研发人员:林嘉琳
申请(专利权)人:杭州迪普科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1