流量识别方法、装置、电子设备、及存储介质制造方法及图纸

技术编号:25091252 阅读:43 留言:0更新日期:2020-07-31 23:36
本公开实施例公开了一种流量识别方法、装置、电子设备、及存储介质,方法包括:获取网络中未确定所属应用程序的数据流作为未知数据流;回溯多个不包含域名信息且已确定所属应用程序的数据流作为多个参考数据流;分别计算所述多个参考数据流与所述未知数据流之间的相似度,以确定最大相似度、以及所述最大相似度对应的参考数据流;若所述最大相似度大于或等于预定相似度阈值,则确定所述未知数据流的所属应用程序,与所述最大相似度对应的参考数据流的所属应用程序相同。本公开实施例的技术方案能够提高识别恶意流量的准确性和精度。

【技术实现步骤摘要】
流量识别方法、装置、电子设备、及存储介质
本公开实施例涉及计算机网络
,具体涉及一种流量识别方法、装置、电子设备、及存储介质。
技术介绍
流量识别的目标是对网络流量按照协议、应用和WEB服务三个层次进行实时识别,尽可能做到细粒度的分类,为网络监控提供决策参考。在流量识别的基础上,网络监控可以采取多种措施。流量识别可以用于流量计费、提升用户体验和保障网络安全方面,还可以用于日常运维,通过流量识别及早发现网络流量异动,从而采取保障措施,确保业务不受影响。目前流量识别技术包括端口识别技术、深度包识别技术、深度流识别技术、以及机器学习或者人工智能技术。由于机器学习技术可以从原始数据中直接提取特征,节省了人工成本,同时能够发现人眼难以发现的规律,可以处理加密流量。因此基于机器学习和人工智能的流量识别方法是目前研究的主流方向,但是现有的基于机器学习的流量识别方法对流量分类比较粗,识别恶意流量时准确性不高。
技术实现思路
有鉴于此,本公开实施例提供一种流量识别方法、装置、电子设备、及存储介质,以提高识别恶意流量的准确性和精度。本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。在本公开的第一方面,本公开实施例提供了一种流量识别方法,包括:获取网络中未确定所属应用程序的数据流作为未知数据流;回溯多个不包含域名信息且已确定所属应用程序的数据流作为多个参考数据流;分别计算所述多个参考数据流与所述未知数据流之间的相似度,以确定最大相似度、以及所述最大相似度对应的参考数据流;若所述最大相似度大于或等于预定相似度阈值,则确定所述未知数据流的所属应用程序,与所述最大相似度对应的参考数据流的所属应用程序相同。于一实施例中,获取网络中未确定所属应用程序的数据流作为未知数据流包括:获取网络中数据流,根据预定的硬编码规则确定所述数据流的所属应用程序,若确定成功则为所述数据流标记所述所属应用程序,若确定失败则获取所述数据流作为所述未知数据流。于一实施例中,所述方法还包括,若所述最大相似度小于所述预定相似度阈值,则:回溯多个DNS应答记录,若所述多个DNS应答记录中包含以所述未知流的IP地址为目的地址的至少一个DNS记录,获取所述至少一个DNS记录对应的至少一个域名;回溯多个包含所述至少一个域名的已确定所属应用程序的数据流,分别计算所回溯的数据流与所述未知数据流之间的域名文本相似度,若域名文本相似度大于第二预定相似度阈值,则根据所述数据流的所属应用程序,以及所述多个参考数据流的所属应用程序,确定所述未知数据流的所属应用程序。于一实施例中,根据所述数据流的所属应用程序,以及所述多个参考数据流的所属应用程序,确定所述未知数据流的所属应用程序包括:若所述多个参考数据流中存在至少一个参考数据流的所属应用程序,为所述数据流的所属应用程序,且所述至少一个参考数据流中包含至少一个参考数据流,与所述未知数据流之间的相似度大于第二预定相似度阈值,则确定所述未知数据流的所属应用程序为所述数据流的所属应用程序,其中所述第二预定相似度阈值小于所述预定相似度阈值。于一实施例中,计算参考数据流与所述未知数据流之间的相似度包括:计算所述参考数据流与所述未知数据流之间的流特征距离向量;将所述流特征距离向量输入至预先训练的流相似度计算模型,获取所述流相似度计算模型输出的相似度,所述相似度用于表示输入的流特征距离向量对应的两个数据流属于相同应用程序的概率。于一实施例中,计算所述参考数据流与所述未知数据流之间的流特征距离向量包括:根据数据流的预定流特征计算所述参考数据流与所述未知数据流之间的流特征距离向量,其中所述数据流的预定流特征包括如下至少一种:数据流的上行包长序列的中位数、数据流的时间间隔序列的标准差、数据流的下行包长序列的中位数、数据流的流前N个包的包长、以及数据流的预定字段的域名特征。于一实施例中,所述流相似度计算模型通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括两个数据流之间的流特征距离向量,和用于表示所述两个数据流是否属于相同应用程序的标注信息,标注信息为1表示属于相同应用程序,标注信息为0表示不属于相同应用程序;确定初始化的流相似度计算模型,其中所述初始化的流相似度计算模型包括用于输出两个数据流属于相同应用程序的概率的目标层;利用机器学习的方法,将所述训练样本集合中的训练样本中的流特征距离向量作为初始化的流相似度计算模型的输入,将与输入的流特征距离向量对应的标注信息作为初始化的流相似度计算模型的期望输出,训练得到所述流相似度计算模型。在本公开的第二方面,本公开实施例还提供了一种流量识别装置,包括:未知流获取单元,用于获取网络中未确定所属应用程序的数据流作为未知数据流;回溯单元,用于回溯多个不包含域名信息且已确定所属应用程序的数据流作为多个参考数据流;相似数据流确定单元,用于分别计算所述多个参考数据流与所述未知数据流之间的相似度,以确定最大相似度、以及所述最大相似度对应的参考数据流;第一确定单元,用于若所述最大相似度大于或等于预定相似度阈值,则确定所述未知数据流的所属应用程序,与所述最大相似度对应的参考数据流的所属应用程序相同。于一实施例中,所述未知流获取单元用于:获取网络中数据流,根据预定的硬编码规则确定所述数据流的所属应用程序,若确定成功则为所述数据流标记所述所属应用程序,若确定失败则获取所述数据流作为所述未知数据流。于一实施例中,所述装置还包括第二确定单元,所述第二确定单元用于若所述最大相似度小于所述预定相似度阈值,则:回溯多个DNS应答记录,若所述多个DNS应答记录中包含以所述未知流的IP地址为目的地址的至少一个DNS记录,获取所述至少一个DNS记录对应的至少一个域名;回溯多个包含所述至少一个域名的已确定所属应用程序的数据流,分别计算所回溯的数据流与所述未知数据流之间的域名文本相似度,若域名文本相似度大于第二预定相似度阈值,则根据所述数据流的所属应用程序,以及所述多个参考数据流的所属应用程序,确定所述未知数据流的所属应用程序。于一实施例中,所述第二确定单元用于根据所述数据流的所属应用程序,以所述多个参考数据流的所属应用程序确定所述未知数据流的所属应用程序包括:若所述多个参考数据流中存在至少一个参考数据流的所属应用程序,为所述数据流的所属应用程序,且所述至少一个参考数据流中包含至少一个参考数据流,与所述未知数据流之间的相似度大于第二预定相似度阈值,则确定所述未知数据流的所属应用程序为所述数据流的所属应用程序,其中所述第二预定相似度阈值小于所述预定相似度阈值。于一实施例中,所述相似数据流确定单元用于计算参考数据流与所述未知数据流之间的相似度包括:计算所述参考数据流与所述未知数据流之间的流特征距离向量;将所述流特征距离向量本文档来自技高网...

【技术保护点】
1.一种流量识别方法,其特征在于,包括:/n获取网络中未确定所属应用程序的数据流作为未知数据流;/n回溯多个不包含域名信息且已确定所属应用程序的数据流作为多个参考数据流;/n分别计算所述多个参考数据流与所述未知数据流之间的相似度,以确定最大相似度、以及所述最大相似度对应的参考数据流;/n若所述最大相似度大于或等于预定相似度阈值,则确定所述未知数据流的所属应用程序,与所述最大相似度对应的参考数据流的所属应用程序相同。/n

【技术特征摘要】
1.一种流量识别方法,其特征在于,包括:
获取网络中未确定所属应用程序的数据流作为未知数据流;
回溯多个不包含域名信息且已确定所属应用程序的数据流作为多个参考数据流;
分别计算所述多个参考数据流与所述未知数据流之间的相似度,以确定最大相似度、以及所述最大相似度对应的参考数据流;
若所述最大相似度大于或等于预定相似度阈值,则确定所述未知数据流的所属应用程序,与所述最大相似度对应的参考数据流的所属应用程序相同。


2.根据权利要求1所述的方法,其特征在于,获取网络中未确定所属应用程序的数据流作为未知数据流包括:
获取网络中数据流,根据预定的硬编码规则确定所述数据流的所属应用程序,若确定成功则为所述数据流标记所述所属应用程序,若确定失败则获取所述数据流作为所述未知数据流。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括,若所述最大相似度小于所述预定相似度阈值,则:
回溯多个DNS应答记录,若所述多个DNS应答记录中包含以所述未知流的IP地址为目的地址的至少一个DNS记录,获取所述至少一个DNS记录对应的至少一个域名;
回溯多个包含所述至少一个域名的已确定所属应用程序的数据流,分别计算所回溯的数据流与所述未知数据流之间的域名文本相似度,若域名文本相似度大于第二预定相似度阈值,则根据所述数据流的所属应用程序,以及所述多个参考数据流的所属应用程序,确定所述未知数据流的所属应用程序。


4.根据权利要求3所述的方法,其特征在于,根据所述数据流的所属应用程序,以及所述多个参考数据流的所属应用程序,确定所述未知数据流的所属应用程序包括:
若所述多个参考数据流中存在至少一个参考数据流的所属应用程序,为所述数据流的所属应用程序,且所述至少一个参考数据流中包含至少一个参考数据流,与所述未知数据流之间的相似度大于第二预定相似度阈值,则确定所述未知数据流的所属应用程序为所述数据流的所属应用程序,其中所述第二预定相似度阈值小于所述预定相似度阈值。


5.根据权利要求1所述的方法,其特征在于,计算参考数据流与所述未知数据流之间的相似度包括:
计算所述参考数据流与所述未知数据流之间的流特征距离向量;
将所述流特征距离向量输入至预先训练的流相似度计算模型,获取所述流相似度计算模型输出的相似度,所述相似...

【专利技术属性】
技术研发人员:苑晓鹏崔渊博周忠义傅强阿曼太梁彧田野王杰杨满智蔡琳金红陈晓光
申请(专利权)人:恒安嘉新北京科技股份公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1