有毒样本数据生成方法及装置制造方法及图纸

技术编号:30145353 阅读:38 留言:0更新日期:2021-09-23 15:18
本公开提供一种有毒样本数据生成方法、装置和电子设备;所述方法包括:生成平台基于分类器的训练的第一正常数据集,构建原始有毒数据集,作为第0次迭代的有毒数据集,以启动迭代;当迭代次数为0,将原始有毒数据集与第一正常数据集融合;当迭代次数大于0,将前一次迭代的有毒数据集与第一正常数据集融合;得到混合数据集,并继续迭代;基于损失函数,对混合数据集采取内层优化策略,得到分类器在本次迭代中的参数向量;采用预设的参数向量判定策略,决定是否结束迭代;当确定迭代结束时,将本次迭代的有毒数据集作为有毒样本数据;当迭代未结束时,基于建立的损失函数,以及参数向量,采取预设的外层优化策略,得到下一次迭代的有毒数据集。据集。据集。

【技术实现步骤摘要】
有毒样本数据生成方法及装置


[0001]本公开的实施例涉及网络攻防对抗样本生成
,尤其涉及一种毒样本数据生成方法、装置和电子设备。

技术介绍

[0002]基于逻辑回归模型函数的分类器在工业的应用十分广泛,例如在医疗系统中根据疾病的特征对疾病进行预测,以及在CTR(点击通过率)预估模型中进行预测等。
[0003]在上述领域中进行预测分类时,基于逻辑回归模型的分类器需要定期训练以更新模型,因此使网络攻击者可以利用有毒样本数据对合法模型的预测进行攻击,使合法模型预测的准确性大幅下降。
[0004]为了提高基于逻辑回归模型函数的分类器在进行预测时的安全性,需要一种有毒样本数据,可以在现实中的安全情况下,模拟网络攻击者对分类器的攻击行为,以实现网络攻防对抗的演练。
[0005]基于此,需要一种能够实现有毒样本数据生成的方案。

技术实现思路

[0006]有鉴于此,本公开的目的在于提出一种毒样本数据生成方法、装置和电子设备。
[0007]基于上述目的,本公开提供了有毒样本数据生成方法,包括:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动有毒数据集和肿瘤预测分类器的迭代。
[0008]进一步的,在迭代过程中,生成平台响应于确定本次迭代的迭代次数为0,将原始有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代;生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代。
[0009]进一步的,基于建立的损失函数,生成平台对混合数据集进行内层优化,得到肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束迭代。
[0010]进一步的,响应于确定迭代未结束,生成平台基于建立的损失函数,利用本次迭代中得到的参数向量,对预设的第二正常数据集和有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定迭代结束,将本次迭代中的有毒数据集作为有毒样本数据。
[0011]基于同一专利技术构思,本公开还提供了一种有毒样本数据生成装置,包括:初始化模块、预处理模块、内层优化模块和外层优化模块。
[0012]其中,初始化模块,被配置为:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为第一正常数据集的各项特征,将肿瘤性状
作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动有毒数据集和肿瘤预测分类器的迭代。
[0013]预处理模块,被配置为:在迭代过程中,生成平台响应于确定本次迭代的迭代次数为0,将原始有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代;生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代。
[0014]内层优化模块,被配置为:基于建立的损失函数,生成平台对混合数据集进行内层优化,得到肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束迭代。
[0015]外层优化模块,被配置为:响应于确定迭代未结束,生成平台基于建立的损失函数,利用本次迭代中得到的参数向量,对预设的第二正常数据集和有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定迭代结束,将本次迭代中的有毒数据集作为有毒样本数据。
[0016]基于同一专利技术构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上任意一项的有毒样本数据生成方法。
[0017]从上面所述可以看出,本公开提供的毒样本数据生成方法、装置和电子设备,基于肿瘤预测分类器对肿瘤性状的预测,综合考虑了正常数据集中肿瘤的各项特征,并根据肿瘤分类器对正常数据集的训练,具有针对性地构建有毒数据集;进而利用迭代思想对有毒数据集进行内层优化和外层优化,使其得能够在内层优化中有效获得损失函数达到最小化时的分类器参数向量,以及在外层优化中有效获得损失函数达到最大化时的有毒数据集特征值向量,从而有效、精准地构建能够匹配逻辑回归模型分类器的有毒样本数据,实现了在网络攻防演练中模拟真实对抗状态的效果。
附图说明
[0018]为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本公开实施例的有毒样本数据生成方法的流程图;图2为本公开实施例的有毒样本数据生成装置模块示意图;图3为本公开实施例的迭代生成过程示意图;图4为本公开实施例示的有毒样本数据应用示意图;图5为本公开实施例示电子设备结构意图。
具体实施方式
[0020]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0021]需要说明的是,除非另外定义,本公开的实施例使用的技术术语或者科学术语应
当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0022]如
技术介绍
部分所述,现有的有毒样本数据还难以满足模拟网络对抗的需要。
[0023]申请人在实现本公开的过程中发现,现有的有毒样本数据生成方法存在的主要问题在于:在网络攻防对抗的演练中,现在有的有毒样本数据难以匹配针对相关分类器预测模型的攻击,尤其是基于逻辑回归模型的分类器;因此在逻辑回归模型的预测中,还无法模拟现实中,针对目标对象所对应数据集的网络攻击方法。
[0024]可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
[0025]以下,通过具体的实施例,并具体结合图1示出的有毒样本数据生成方法的流程图,来详细说明本公开的技术方法。
[0026]参考图1,本公开一个实施例的有毒样本数据生成方法,包括以下步骤:步骤S101、生成平台基于肿瘤预测分类器所训练的第一正常数据集,概括性地,可以将肿瘤尺寸、肿瘤细胞特征和肿瘤类型等肿瘤特征作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代。
[0027]在本公开的实施例中,生成的有毒样本数据可以应用于如 : CTR(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种有毒样本数据生成方法,包括:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代;在迭代过程中,所述生成平台响应于确定本次迭代的迭代次数为0,将所述原始有毒数据集与所述第一正常数据集融合,作为混合数据集,并继续本次迭代;所述生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的所述有毒数据集与所述第一正常数据集融合,作为所述混合数据集,并继续本次迭代;基于建立的损失函数,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代;响应于确定所述迭代未结束,所述生成平台基于建立的所述损失函数,利用本次迭代中得到的所述参数向量,对预设的第二正常数据集和所述有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定所述迭代结束,将本次迭代中的所述有毒数据集作为有毒样本数据。2.根据权利要求1所述的方法,其中,所述构建原始有毒数据集,包括:利用所述肿瘤预测分类器对所述第一正常数据集进行训练,得到与所述第一正常数据集中输入的各个第一特征值所对应的第一分类结果;对所述第一正常数据集中的所述第一特征值与所述第一分类结果之间的对应关系进行翻转扭曲,以构建原始有毒数据集中的原始特征值、原始分类结果及其之间的对应关系。3.根据权利要求2所述的方法,其中,所述利用所述肿瘤预测分类器对所述第一正常数据集进行训练,包括:采取如下的逻辑回归模型的函数作为肿瘤预测分类器,对所述所述第一正常数据集进行训练:其中,表示所述肿瘤预测分类器在第i次迭代中的参数向量;e为常数参数;表示相应数据集中第k个数据对象所对应的各特征值构成的特征值向量;表示在第i次迭代中所对应的所述肿瘤预测分类器的分类结果;其中,。4.根据权利要求3所述的方法,其中,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量,包括:建立如下的损失函数:其中,K表示数据集中所述数据对象的数量,且;表示相应数据集中第k个所述数据对象所对应的正确分类结果;表示所述肿瘤预测分类器在第i次迭代中的所述
参数向量;表示与第i次迭代中的所述参数向量所对应的所述损失函数值;采取对所述损失函数进行最小化计算,得到所述肿瘤预测分类器的所述参数向量。5.根据权利要求1所述的方法,其中,采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代,包括:采取如下参数公式,以获得参数b的所述参数值:其中,mod[]表示以i为被除数,以N为除数,执行除法计算求解余数的函数;i表示迭代次数,N表示所述混合数据集中有毒的数据对象的个数;响应于迭代次数不为0,且b=0,且本次迭代得到的所述参数向量与前一次迭代得到的所述参数向量之间的差值向量小于预设的溢出阈值,确定结束本次迭代。6.根据权利要...

【专利技术属性】
技术研发人员:高飞杨芃溪李文敏张华温巧燕时忆杰金正平
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1