数据流的分类方法和报文转发设备技术

技术编号:26385054 阅读:30 留言:0更新日期:2020-11-19 23:54
本申请实施例公开了一种数据流的分类方法,应用于内部网络和互联网之间的报文转发设备。本申请实施例方法包括:报文转发设备获取多条数据流,并提取多条数据流中每条数据流的地址信息和时间信息;根据每条数据流的源IP地址,从多条数据流中筛选出第一客户端设备访问多个服务产生的数据流集合;根据数据流集合中每条数据流的目的IP地址和目的端口号,确定第一客户端设备访问的包括第一服务和第二服务的服务集合;根据数据流集合中每条数据流的时间信息,确定服务集合中的各服务之间的相关性;进而确定第一服务和第二服务用于实现第一应用;由此报文转发设备确定第一服务和第二服务对应的数据流为第一应用的数据流。

【技术实现步骤摘要】
数据流的分类方法和报文转发设备
本申请涉及通信
,特别涉及一种数据流的分类方法和报文转发设备。
技术介绍
软件定义广域网(softwaredefinedwideareanetwork,SD-WAN)场景中存在多种企业私有应用,识别网络流量中承载哪些应用的数据,对于网络管理是重要的。深度报文解析(deeppacketinspection,DPI)技术被应用于对数据流进行应用分类。在流量转发的过程中,DPI设备基于数据流中的字节信息提取流量特征,然后将提取的流量特征与预设的识别规则进行匹配可以得到分类结果。由于现有技术中,DPI设备对流量进行分类所用的识别规则需要由技术人员总结获取,耗时费力。
技术实现思路
本申请实施例提供了一种数据流的分类方法,应用于内部网络和互联网之间的报文转发设备,可以减少技术人员的工作量,避免应用更新带来的无法识别数据流的问题。本申请实施例第一方面提供了一种数据流的分类方法,应用于内部网络和互联网之间的报文转发设备,包括:报文转发设备获取多条数据流,并提取该多条数据流中每条数据流的地址信息和时间信息,该多条数据流是多个客户端设备分别访问多个服务产生的数据流,该服务用于实现应用的子功能,该地址信息包括源IP地址、源端口号、目的IP地址和目的端口号;该报文转发设备根据该每条数据流的源IP地址,从该多条数据流中筛选出第一客户端设备访问多个服务产生的数据流集合,该第一客户端设备是该多个客户端设备中被分配使用第一IP地址的客户端设备;该报文转发设备根据该数据流集合中每条数据流的目的IP地址和目的端口号,确定该第一客户端设备访问的服务集合,该服务集合包括第一服务和第二服务,该第一服务对应的目的IP地址和目的端口号的组合与该第二服务对应的目的IP地址和目的端口号的组合不同;该报文转发设备根据该数据流集合中每条数据流的时间信息,确定该服务集合中的各服务之间的相关性;该报文转发设备根据该相关性,确定该第一服务和该第二服务用于实现第一应用;该报文转发设备确定该第一服务和该第二服务对应的数据流为该第一应用的数据流。应用由一组服务组成,服务用于实现应用的子功能。当客户端设备访问某一应用时,会应用提供方服务器建立多条数据流,多条数据流用于实现属于该应用的多个服务,该多条数据流的时间信息将存在较强的相关性。多个客户端设备分别访问一个或多个应用时,将建立多条数据流。报文转发设备获取多条数据流,该多条数据流是多个客户端设备分别访问多个服务产生的数据流。报文转发设备提取该多条数据流中每条数据流的地址信息和时间信息,根据该每条数据流的源IP地址,可以从该多条数据流中筛选出第一客户端设备产生的第一数据流集合。报文转发设备根据该数据流集合中每条数据流的该目的IP地址和目的端口号,可以确定该第一客户端设备访问的服务集合,根据该数据流集合中每条数据流的时间信息。报文转发设备确定该服务集合中的各服务之间的相关性,各服务之间的相关性是指各服务在时间信息层面的相关程度。报文转发设备根据该相关性,可以确定用于实现第一应用的该第一服务和该第二服务,由此,报文转发设备可以确定该第一服务和该第二服务对应的数据流为该第一应用的数据流,实现了对于多条数据流的分类。本申请实施例提供的数据流分类方法,通过时间信息的内在关联性进行分类,不需要根据识别规则对数据流中的字节信息进行识别,可以减少技术人员的工作量,避免应用更新带来的无法识别数据流的问题。在第一方面的一种可能的实现方式中,该时间信息包括:数据流的开始时刻和/或结束时刻。本申请实施例提供的数据流的分类方法,提供了时间信息的几种具体形式,可以是数据流的开始时刻、结束时刻,或者,开始时刻和结束时刻,这样在实现数据流分类的过程中可以增加方案实现的灵活性,此外,根据开始时刻和结束时刻共同完成数据流分类还可以增加分类的准确度。在第一方面的一种可能的实现方式中,该报文转发设备根据该相关性,确定该第一服务和该第二服务用于实现第一应用包括:该报文转发设备根据该相关性,通过非监督算法进行聚类,确定该第一服务和该第二服务用于实现第一应用。本申请实施例提供的数据流的分类方法,使用机器学习中的非监督算法来进行流量分类,在算法开发训练过程中,不需要使用标签样本,仅被用来验证算法的有效性,可以简化分类流程,降低技术人员的工作量。在第一方面的一种可能的实现方式中,该聚类的方法包括:谱聚类算法、K-Means聚类算法或DBSCAN密度聚类算法。本申请实施例提供的数据流的分类方法,提供了多种可能的聚类方法,提高了方案实现的灵活性。在第一方面的一种可能的实现方式中,该报文转发设备根据该数据流集合中每条数据流的时间信息,确定该服务集合中的各服务之间的相关性,包括:该报文转发设备根据该数据流集合中每条数据流的时间信息,确定第一同现服务集合,该第一服务和该第二服务属于该第一同现服务集合,该第一同现服务集合中包括至少两个服务、且访问该至少两个服务产生的数据流的时间信息的间隔时长小于或等于预设的时长;该报文转发设备根据该第一同现服务集合,确定该第一服务与该第二服务之间的相关性。本申请实施例提供的数据流的分类方法,可以从单一客户端设备访问的多个服务中筛选出间信息的间隔时长小于或等于预设的时长的服务,得到同现服务集合,再确定服务之间的相关性,增强了方案的可实现性。在第一方面的一种可能的实现方式中,该方法还包括:该报文转发设备根据该第一同现服务集合确定该第一服务和该第二服务之间的相似度,得到相似度矩阵;该报文转发设备根据该相关性,确定该第一服务和该第二服务用于实现第一应用包括:该报文转发设备根据该相似度矩阵确定该第一服务和该第二服务用于实现第一应用。本申请实施例提供的数据流的分类方法,通过同现服务集合可以确定服务之间的相似度,得到相似度矩阵,进而根据相似度矩阵确定服务是否用于实现同一应用,该方案可以提高分类的准确度。在第一方面的一种可能的实现方式中,该报文转发设备根据该第一同现服务集合确定该第一服务和该第二服务之间的相似度包括:该报文转发设备根据余弦相似度计算法、交并比计算法或者欧式距离计算法确定该第一服务和该第二服务之间的相似度。本申请实施例提供的数据流的分类方法,提供了计算服务之间相似度的几种具体计算方法,提高了方案的可实现性和灵活性。在第一方面的一种可能的实现方式中,该方法还包括:该报文转发设备通过图嵌入技术从该相似度矩阵中提取该第一服务的第一特征向量和该第二服务的第二特征向量;该报文转发设备根据该相关性,确定该第一服务和该第二服务用于实现第一应用包括:该报文转发设备根据该第一特征向量和该第二特征向量,确定该第一服务和该第二服务用于实现第一应用。本申请实施例提供的数据流的分类方法,得到相似度矩阵后可以进一步通过图嵌入技术提取服务的特征向量,进而根据特征向量确定用于实现同一应用的服务,可以提高分类的准确度。在第一方面的一种可能的实现方式中,该方法还包括:该报文转发设备提取该多条数据流的DNS特征,该DNS特征本文档来自技高网...

【技术保护点】
1.一种数据流的分类方法,其特征在于,应用于内部网络和互联网之间的报文转发设备,包括:/n报文转发设备获取多条数据流,并提取所述多条数据流中每条数据流的地址信息和时间信息,所述多条数据流是多个客户端设备分别访问多个服务产生的数据流,所述服务用于实现应用的子功能,所述地址信息包括源IP地址、源端口号、目的IP地址和目的端口号;/n所述报文转发设备根据所述每条数据流的源IP地址,从所述多条数据流中筛选出第一客户端设备访问多个服务产生的数据流集合,所述第一客户端设备是所述多个客户端设备中被分配使用第一IP地址的客户端设备;/n所述报文转发设备根据所述数据流集合中每条数据流的目的IP地址和目的端口号,确定所述第一客户端设备访问的服务集合,所述服务集合包括第一服务和第二服务,所述第一服务对应的目的IP地址和目的端口号的组合与所述第二服务对应的目的IP地址和目的端口号的组合不同;/n所述报文转发设备根据所述数据流集合中每条数据流的时间信息,确定所述服务集合中的各服务之间的相关性;/n所述报文转发设备根据所述相关性,确定所述第一服务和所述第二服务用于实现第一应用;/n所述报文转发设备确定所述第一服务和所述第二服务对应的数据流为所述第一应用的数据流。/n...

【技术特征摘要】
1.一种数据流的分类方法,其特征在于,应用于内部网络和互联网之间的报文转发设备,包括:
报文转发设备获取多条数据流,并提取所述多条数据流中每条数据流的地址信息和时间信息,所述多条数据流是多个客户端设备分别访问多个服务产生的数据流,所述服务用于实现应用的子功能,所述地址信息包括源IP地址、源端口号、目的IP地址和目的端口号;
所述报文转发设备根据所述每条数据流的源IP地址,从所述多条数据流中筛选出第一客户端设备访问多个服务产生的数据流集合,所述第一客户端设备是所述多个客户端设备中被分配使用第一IP地址的客户端设备;
所述报文转发设备根据所述数据流集合中每条数据流的目的IP地址和目的端口号,确定所述第一客户端设备访问的服务集合,所述服务集合包括第一服务和第二服务,所述第一服务对应的目的IP地址和目的端口号的组合与所述第二服务对应的目的IP地址和目的端口号的组合不同;
所述报文转发设备根据所述数据流集合中每条数据流的时间信息,确定所述服务集合中的各服务之间的相关性;
所述报文转发设备根据所述相关性,确定所述第一服务和所述第二服务用于实现第一应用;
所述报文转发设备确定所述第一服务和所述第二服务对应的数据流为所述第一应用的数据流。


2.根据权利要求1所述的方法,其特征在于,所述时间信息包括:
数据流的开始时刻和/或结束时刻。


3.根据权利要求1或2所述的方法,其特征在于,所述报文转发设备根据所述相关性,确定所述第一服务和所述第二服务用于实现第一应用包括:
所述报文转发设备根据所述相关性,通过非监督算法进行聚类,确定所述第一服务和所述第二服务用于实现第一应用。


4.根据权利要求3所述的方法,其特征在于,所述聚类的方法包括:谱聚类算法、K-Means聚类算法或DBSCAN密度聚类算法。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述报文转发设备根据所述数据流集合中每条数据流的时间信息,确定所述服务集合中的各服务之间的相关性,包括:
所述报文转发设备根据所述数据流集合中每条数据流的时间信息,确定第一同现服务集合,所述第一服务和所述第二服务属于所述第一同现服务集合,所述第一同现服务集合中包括至少两个服务、且访问所述至少两个服务产生的数据流的时间信息的间隔时长小于或等于预设的时长;
所述报文转发设备根据所述第一同现服务集合,确定所述第一服务与所述第二服务之间的相关性。


6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述报文转发设备根据所述第一同现服务集合确定所述第一服务和所述第二服务之间的相似度,得到相似度矩阵;
所述报文转发设备根据所述相关性,确定所述第一服务和所述第二服务用于实现第一应用包括:
所述报文转发设备根据所述相似度矩阵确定所述第一服务和所述第二服务用于实现第一应用。


7.根据权利要求6所述的方法,其特征在于,所述报文转发设备根据所述第一同现服务集合确定所述第一服务和所述第二服务之间的相似度包括:
所述报文转发设备根据余弦相似度计算法、交并比计算法或者欧式距离计算法确定所述第一服务和所述第二服务之间的相似度。


8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
所述报文转发设备通过图嵌入技术从所述相似度矩阵中提取所述第一服务的第一特征向量和所述第二服务的第二特征向量;
所述报文转发设备根据所述相关性,确定所述第一服务和所述第二服务用于实现第一应用包括:
所述报文转发设备根据所述第一特征向量和所述第二特征向量,确定所述第一服务和所述第二服务用于实现第一应用。


9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
所述报文转发设备提取所述多条数据流的DNS特征,所述DNS特征包括所述目的IP地址和目的端口号的组合和域名的对应关系;
根据所述第一应用的数据流的目的...

【专利技术属性】
技术研发人员:邱亚平罗奇华卓隽王璐
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1