本发明专利技术公开了一种基于协同训练算法的空间信息网络资源分类方法,属于网络资源分类技术领域,包括抓取网络业务实时在线流量,对在线流量进行实时特征提取和样本抽取,对抽取的样本进行特征提取,对抽取的样本按预设比例进行标记分类,将标记的样本放入有标记样本集中,将未标记的样本放入未标记样本集中,使用NF Tri
【技术实现步骤摘要】
一种基于协同训练算法的空间信息网络资源分类方法
[0001]本专利技术属于网络资源分类
,具体地说,涉及一种基于协同训练算法的空间信息网络资源分类方法。
技术介绍
[0002]目前,随着互联网的发展和普及,互联网逐渐从一种专业的工具变成一种大众工具,互联网上的资源也日渐增多,同时,可以访问互联网的终端设备也不再仅限于计算机,手机、机顶盒、游戏机等多种类型的设备也开始具备了访问互联网的能力,互联网上的资源包括网页、文件、视频、音乐、应用等,保存在遍布全球数以万计的服务器中,种类繁多,数量巨大,必须有一种方法,使用相对简单的文字信息把这些资源一一分类标识出来,人们才能方便地定位和访问这些资源。
[0003]在真实的空间信息网络环境中,网络资源存在大量的噪声,其噪声主要包含由网络环境所引入的噪声,如Ka 频段受雨水、天气、太阳活动等而引起的高误码率,还有空间信息网络的长时延等问题而引入大量的噪声,这些噪声会对训练分类器造成影响,从而降低分类器的分类精度,同时传统资源流分类技术主要采用标准的Tri
‑
training分类算法,Tri
‑
training分类算法在训练辅助分类器时可能会错误标记,从而引入标记噪声,使用被标记错误的样本来训练分类器也会对分类器的精度造成影响,最终导致分类结果的错误率也因此提高。
技术实现思路
[0004]要解决的问题针对现有传统资源流分类技术在训练辅助分类器时可能会错误标记,从而引入标记噪声,使用被标记错误的样本来训练分类器也会对分类器的精度造成影响的问题,本专利技术提供一种基于协同训练算法的空间信息网络资源分类方法。
[0005]技术方案为解决上述问题,本专利技术采用如下的技术方案。
[0006]一种基于协同训练算法的空间信息网络资源分类方法,采用以下步骤:步骤1:抓取网络业务实时在线流量,对在线流量进行实时特征提取和样本抽取;步骤2:对抽取的样本进行特征提取;步骤3:对抽取的样本按预设比例进行标记分类,将标记的样本放入有标记样本集中,将未标记的样本放入未标记样本集中;步骤4:使用NF Tri
‑
Training算法对提取的特征结合标记样本集和未标记样本集进行计算训练,根据计算训练结果获得分类器;步骤5:使用分类器对提取的实时特征进行分类,获得分类结果。
[0007]优选地,所述步骤1和步骤2中特征提取的特征是基于包和基于流的统计分类特征。
[0008]进一步地,所述基于包的统计特征包括最大包、最小包、平均包的大小、平均到达时间、相邻两数据包到达时间间隔均值和速率。
[0009]进一步地,所述基于流的统计特征包括流的大小、流的持续时间、标志位个数。
[0010]优选地,所述步骤3中标记分类需要进行计算样本之间的距离和样本与整个样本集的距离。
[0011]进一步地,样本之间的距离计算采用欧式距离算法,设两个样本的n维向量分别为s1( x
11
,x
12
,
…
,x
1n
) 和s2( x
21
,x
22
,
…
,x
2n
),样本之间的计算公式如下:进一步地,样本与整个样本集的距离为样本差异性度量,公式如下:其中,d
i
表示样本集中第i个样本与整个样本集之间的差距,M 代表样本总数,N代表特征维度。
[0012]优选地,所述步骤4中计算训练流程如下:设初始已标记样本集为L,未标记样本集为U,对标记样本集L采用可放回随机抽样方法,从初始已标记样本集L中获取3个有差异性的已标记样本集,再使用C4.5分类算法对这3个有标记数据集进行训练,得到3个初始分类器C1、C2、C3;选取其中一个分类器为主分类器,另外两个为辅助分类器,使用辅助分类器对未标记样本集U进行分类,做分类结果标记,将标记相同的样本与相应的标记组合成集合X
a
,统计集合X
a
样本个数,假设为K1;计算每个样本x
i
属于集合X
a
的样本差距;从X
a
中选择K2个样本x
i
样本差距值最小的样本,将辅助分类器对该样本的标记作为其标记,将标记后的样本加入主分类器对应的已标记样本集进行扩展,然后重新训练该分类器,获得X
a
′
;训练结束,X
a
′
则为训练后最终的分类器。
[0013]进一步地,样本x
i
属于集合X
a
的样本差距计算公式如下:其中,dis(x
i
) 表示样本x
i
的样本差距,N表示样本的维度,x
ik
表示x
i
第k维上的值。
[0014]进一步地,从X
a
中选择K2个样本差距值最小的样本,其中K2的计算公式如下:
其中,select_rate∈( 0,1) ,select_rate是样本差异较小的样本所占比例。
[0015]一种基于协同训练算法的空间信息网络资源分类方法,通过样本差异性度量方式计算样本与整个样本集之间的差距,用以衡量样本在整个样本集中的偏移情况,通过计算值大小来确定样本标记置信度,使用抽取比例方法,用于选取大量标记置信度较高的样本以抵消错误标记率所导致的分类错误率,提出一种具有噪声过滤功能的NF Tri
‑
Training算法,来获取两个辅助分类器判决一致的样本,然后计算样本的标记置信度,若标记置信度越高则其被标记正确的概率就较大,从而可以选取出大量正确标记的样本用于训练分类器,避免了两个辅助分类器判决一致即认为正确的情形,有效降低由标记错误所带来的分类错误率,降低标记噪声对分类结果的影响,实现对传统协同训练算法的优化。
[0016]有益效果相比于现有技术,本专利技术的有益效果为:(1)本专利技术通过基于噪声过滤的协同训练算法NF Tri
‑
Training算法,获取两个辅助分类器判决一致的样本,计算样本的标记置信度,从而可以选取出大量正确标记的样本用于训练分类器,避免了两个辅助分类器判决一致即认为正确的情形,有效降低由标记错误所带来的分类错误率;(2)本专利技术通过对在线流量进行实时特征提取,使用分类器对提取的实时特征进行分类,不需要等整条流都结束后就能进行分类处理,可以满足一些实时性要求较高和需要高速处理的业务需求;(3)本专利技术不仅通过计算样本间距离,还计算出单一样本与整个样本集之间的整体性差距,衡量样本在整个样本集中的偏移情况,确定样本标记置信度,使得筛选出的样本可靠性更高。
附图说明
[0017]为了更清楚地说明本申请实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,因此不应被看作是对范围的限定,对于本领域普通本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,采用以下步骤:步骤1:抓取网络业务实时在线流量,对在线流量进行实时特征提取和样本抽取;步骤2:对抽取的样本进行特征提取;步骤3:对抽取的样本按预设比例进行标记分类,将标记的样本放入有标记样本集中,将未标记的样本放入未标记样本集中;步骤4:使用NF Tri
‑
Training算法对提取的特征结合标记样本集和未标记样本集进行计算训练,根据计算训练结果获得分类器;步骤5:使用分类器对提取的实时特征进行分类,获得分类结果。2.根据权利要求1所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,所述步骤1和步骤2中特征提取的特征是基于包和基于流的统计分类特征。3.根据权利要求2所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,所述基于包的统计特征包括最大包、最小包、平均包的大小、平均到达时间、相邻两数据包到达时间间隔均值和速率。4.根据权利要求2所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,所述基于流的统计特征包括流的大小、流的持续时间、标志位个数。5.根据权利要求1所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,所述步骤3中标记分类需要进行计算样本之间的距离和样本与整个样本集的距离。6.根据权利要求5所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,样本之间的距离计算采用欧式距离算法,设两个样本的n维向量分别为s1( x
11
,x
12
,
…
,x
1n
) 和s2( x
21
,x
22
,
…
,x
2n
),样本之间的计算公式如下:。7.根据权利要求5所述的一种基于协同训练算法的空间信息网络资源分类方法,其特征在于,样本与整个样本集的距离为样本差异性度量,公式如下:其中,d
i
表...
【专利技术属性】
技术研发人员:杨贻宏,
申请(专利权)人:上海人工智能网络系统工程技术研究中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。