一种基于特征权重的网络数据相似度计算方法与系统技术方案

技术编号:24169221 阅读:75 留言:0更新日期:2020-05-16 02:24
本发明专利技术公开了一种基于特征权重的网络数据相似度计算方法与系统,规范网络数据及其相似度计算参数;网络数据数值化转换;计算网络特征数据相似度;计算网络数据总体相似度;网络数据相似等级转换。本发明专利技术通过权重量化地衡量不同网络特征数据之间的相对重要性,将异构的网络特征数据转化为数值化的十进制形式,通过数学方法计算两个网络数据的相同特征数据之间的相似度值,再综合网络特征的权重计算两个网络数据之间的相似度值,并将数值化的相似度转换为相似等级,提高了网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义,可用于网络数据模式识别、网络数据特征分析等领域。

A method and system of similarity calculation of network data based on feature weight

【技术实现步骤摘要】
一种基于特征权重的网络数据相似度计算方法与系统
本专利技术涉及网络数据分析
,更具体的说是涉及一种基于特征权重的网络数据相似度计算方法与系统。
技术介绍
目前,网络数据的相似度计算方法是网络数据分析领域的关键技术,其计算的相似度值可以用于量化网络数据之间的相似性,为识别特定的网络数据提供科学依据。网络数据相似度计算的准确性关系到网络数据模式判断的合理性,提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。但是,传统的网络数据特征相似度计算方法没有考虑网络数据特征的异构性,而网络数据特征存在二进制值、字符、IP地址组等形式,这种特征数据的异构性给网络数据相似度的量化计算带来了难度。传统的网络数据相似度计算方法多采用字符匹配方式,忽视了异构网络特征数据之间的权重,没有考虑每个网络特征不同的重要性,导致计算的准确度受到较大影响。因此,如何提供一种基于特征权重的网络数据相似度计算方法与系统是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于特征权重的网络数据相似度计算方法与系统,该方法能够提高网络数据相似度计算方法的科学性,对于提高网络数据分析的精确性具有重要的意义。为了实现上述目的,本专利技术采用如下技术方案:一种基于特征权重的网络数据相似度计算方法,所述方法包括以下步骤:S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,将这些相似度值赋给网络特征数据的相似度向量的相应字段;S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。优选的,所述步骤S1的具体过程如下:S11、构建网络数据特征值:从网络数据包中获取网络数据特征,构建网络数据集;S111、获取网络数据特征:捕获网络数据包,构建每个网络数据包的网络数据特征向量DFi={<f1,f2,f3,…,fm>},其中,i(i为自然数)表示第i个数据包,fj(1≤j≤m)表示第j个网络特征,该网络特征不限于网络数据包头的字段,还包括从数据包内容中抽取的任意特征,m(m为自然数)表示网络数据包的特征数量;S112、构建网络数据集:将获取的所有网络数据特征组合为网络数据集D={DF1,DF2,DF3,…,DFn},其中,DFi(1≤i≤n)表示第i个网络数据包的网络数据征向量,n(n为自然数)表示网络数据包的数量;S12、构建网络数据特征的权重向量:构建网络数据特征的权重向量,获取网络数据特征的权重值。S121、构建网络数据特征的权重向量:构建网络数据特征的权重向量W={<w1,w2,w3,…,wm>},其中,wj(1≤j≤m)表示第j个网络特征的权重,且0≤wj≤1,m(m为自然数)表示网络数据包的特征数量;S122、获取网络数据特征的权重值:根据网络数据包中各个特征的重要性,为权重变量W的每个字段(即w1,w2,w3,…,wm)赋值。优选的,所述步骤S2的具体过程如下:S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构DDi=<db1,db2,…,dbp,dc1,dc2,…,dcq,dsIP1,dsIP2,dsIP3,dsIP4,ddIP1,ddIP2,ddIP3,ddIP4>,其中,db表示二进制数值化形式的网络特征的十进制数值,p(p为自然数)表示二进制数值化形式的网络特征的数量,dc表示字符形式的网络特征的十进制数值,q(q为自然数)表示字符形式的网络特征的数量,dsIP1,dsIP2,dsIP3,dsIP4分别表示源IP地址的4组分段数字的十进制数值,ddIP1,ddIP2,ddIP3,ddIP4分别表示目的IP地址的4组分段数字的十进制数值;S22、二进制数值化形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的二进制数值化形式的网络特征,例如:端口号、生存时间、包头长度、总长度、协议类型等,将其二进制数值转换为十进制数值,并分别赋值给db1,db2,…,dbp;S23、字符形式的网络特征的数值化转换:对于网络数据特征向量DFi=<f1,f2,f3,…,fm>中的字符形式的网络特征,例如:网络数据包内容的数据特征,按照文字编码标准将其二进制数值转换为十进制数值,并分别赋值给dc1,dc2,…,dcq;S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;S241、获取源IP地址的4组分段数字;S242、将源IP地址的4组分段数字分别转换为十进制数值,并分别赋值给dsIP1,dsIP2,dsIP3,dsIP4;S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;S251、获取目的IP地址的4组分段数字;S252、将目的IP地址的4组分段数字分别转换为十进制数值,并分别赋值给ddIP1,ddIP2,ddIP3,ddIP4;S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;S27、构建数值化的网络数据集:将计算出的所有网络数据特征的数值化向量组合为数值化的网络数据集D′={DD1,DD2,DD3,…,DDn},其中,DFi(1≤i≤n)表示第i个网络数据特征的数值化向量,n(n为自然数)表示网络数据特征的数值化向量的数量。优选的,所述步骤S3的具体过程如下:S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy(1≤x,y≤n),且ddx,ddy∈D′,符号∈意为包含于,构建网络特征数据的相似度向量Sxy={<sb1,sb2,…,sbp,sc1,sc2,…,scq,ssIP,sdIP>},其中,sbj(1≤j≤p)表示第j个二进制数值化形式的网络特征数据的相似度值,sck(1≤k≤q)表示第k个字符形式的网络特征数据的相似度值,ssIP表示源IP地址的相似度值,sdIP表示目的IP地址的相似度值;S32、计算二进制数值化形式的网络特征数据的相似度:利用如下公式计算二进制数值化形式的网络特征数据的相似度值sbj:其中,1≤j≤p,该公式意为两个网络数据特征的数值化向量ddx和ddy的二进制数值本文档来自技高网...

【技术保护点】
1.一种基于特征权重的网络数据相似度计算方法,其特征在于,所述方法包括以下步骤:/nS1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;/nS2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;/nS3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;/nS4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;/nS5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。/n

【技术特征摘要】
1.一种基于特征权重的网络数据相似度计算方法,其特征在于,所述方法包括以下步骤:
S1、构建网络数据参数:构建网络数据特征值和网络数据特征的权重向量;
S2、网络数据数值化转换:将所述网络数据特征值转化为网络数据特征的十进制数值并赋值给网络数据特征的数值化向量,构建数值化的网络数据集;
S3、计算网络特征数据相似度:构建网络特征数据的相似度向量的数据结构,根据所述网络数据特征的数值化向量,计算网络特征数据的相似度值,并将这些相似度值赋给网络特征数据的相似度向量的相应字段;
S4、计算网络数据总体相似度:根据所述网络数据特征的权重向量和所述网络特征数据的相似度向量,计算两个网络数据特征的数值化向量之间的总体相似度;
S5、网络数据相似等级转换:构建网络特征数据相似等级与相似度之间的对应关系,将所述网络特征数据的相似度值转换为相似等级。


2.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S1的具体过程如下:
S11、构建网络数据特征值;
S12、构建网络数据特征的权重向量。


3.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S2的具体过程如下:
S21、定义网络数据特征的数值化形式:构建网络数据特征的数值化向量的数据结构;
S22、二进制数值化形式的网络特征的数值化转换:将网络数据特征向量中的二进制数值化形式的网络特征的二进制数值转换为十进制数值;
S23、字符形式的网络特征的数值化转换:将网络数据特征向量中的字符形式的网络特征的二进制数值转换为十进制数值;
S24、源IP地址的网络特征的数值化转换:将源IP地址的4组分段数字分别转换为十进制数值;
S25、目的IP地址的网络特征的数值化转换:将目的IP地址的4组分段数字分别转换为十进制数值;
S26、给数值化向量赋值:将所有网络特征的十进制数值赋值给所述网络数据特征的数值化向量的相应字段;
S27、构建数值化的网络数据集:将所有所述网络数据特征的数值化向量组合为数值化的网络数据集。


4.根据权利要求1所述的一种基于特征权重的网络数据相似度计算方法,其特征在于,所述步骤S3的具体过程如下:
S31、构建网络特征数据的相似度向量:对于两个网络数据特征的数值化向量ddx和ddy,构建网络特征数据的相似度向量;
S32、计算二进制数值化形式的网络特征数据的相似度;
S33、计算字符形式的网络特征数据的相似度;
S34、计算源IP地址的网络特征数据的相似度;
S...

【专利技术属性】
技术研发人员:刘才铭张雁
申请(专利权)人:乐山师范学院
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1