防御机器学习模型受攻击的方法、装置、系统和介质制造方法及图纸

技术编号：27977388 阅读：23 留言：0更新日期：2021-04-06 14:12

本公开提供了一种防御机器学习模型受攻击的方法、装置、系统和介质，属于人工智能领域。所述方法包括：对获取的用于训练所述机器学习模型的第一训练数据集进行数据分割和重构，得到第二训练数据集；其中，所述第二训练数据集的数据量大于所述第一训练数据集的数据量，并且所述第二训练数据集中的数据与所述第一训练数据集中随机的部分数据重合；利用所述第二训练数据集分别独立地训练G个个体模型，其中，所述机器学习模型包括所述G个个体模型，其中，所述G个个体模型的算法各不相同；在预测阶段将所述G个个体模型各自输出的第一预测结果按照预定规则处理，形成所述机器学习模型输出的第二预测结果；以及将所述第二预测结果输出给客户端。

全部详细技术资料下载

【技术实现步骤摘要】
防御机器学习模型受攻击的方法、装置、系统和介质
本公开涉及人工智能
，具体地，涉及一种防御机器学习模型受攻击的方法、装置、系统和介质。
技术介绍
机器学习有推动社会发展进步的巨大潜能，然而，如果机器学习模型遭受攻击会导致机器学习判断结果失准，轻则造成财产损失，重则威胁人身安全。当前对于机器学习模型的攻击可以有多种表现。例如，在数据层面，攻击者能够通过在训练阶段加入少量恶意数据或者少量关键噪音的方式，实现改变模型判断结果的投毒攻击。又例如，在模型层面，攻击者可通过多次查询逆向复制出和服务商应用完全相同的模型。再例如，在为用户提供训练数据的服务场景下，攻击者能够通过反复查询训练好的模型获得用户的隐私信息。如何提升机器学习模型的攻击防御能力，对于信息安全和人工智能技术的发展非常至关重要。
技术实现思路
有鉴于此，本公开实施例提供了一种防御机器学习模型受攻击的方法、装置、系统和介质。本公开实施例的第一方面，提供了一种防御机器学习模型受攻击的方法。所述方法包括：对获取的用于训练所述机器学习模型的第一训练数据集进行数据分割和重构，得到第二训练数据集，其中，所述第二训练数据集的数据量大于所述第一训练数据集的数据量，并且所述第二训练数据集中的数据与所述第一训练数据集中随机的部分数据重合；利用所述第二训练数据集分别独立地训练G个个体模型，其中，所述机器学习模型包括所述G个个体模型，其中，所述G个个体模型的算法各不相同，其中，G为大于或等于2的整数；在预测阶段将所述G个个体模型各自输出的第一预测...

【技术保护点】
1.一种防御机器学习模型受攻击的方法，包括：/n对获取的用于训练所述机器学习模型的第一训练数据集进行数据分割和重构，得到第二训练数据集；其中，所述第二训练数据集的数据量大于所述第一训练数据集的数据量，并且所述第二训练数据集中的数据与所述第一训练数据集中随机的部分数据重合；/n利用所述第二训练数据集分别独立地训练G个个体模型，其中，所述机器学习模型包括所述G个个体模型，其中，所述G个个体模型的算法各不相同，其中，G为大于或等于2的整数；/n在预测阶段将所述G个个体模型各自输出的第一预测结果按照预定规则处理，形成所述机器学习模型输出的第二预测结果；以及/n将所述第二预测结果输出给客户端。/n

【技术特征摘要】
1.一种防御机器学习模型受攻击的方法，包括：
对获取的用于训练所述机器学习模型的第一训练数据集进行数据分割和重构，得到第二训练数据集；其中，所述第二训练数据集的数据量大于所述第一训练数据集的数据量，并且所述第二训练数据集中的数据与所述第一训练数据集中随机的部分数据重合；
利用所述第二训练数据集分别独立地训练G个个体模型，其中，所述机器学习模型包括所述G个个体模型，其中，所述G个个体模型的算法各不相同，其中，G为大于或等于2的整数；
在预测阶段将所述G个个体模型各自输出的第一预测结果按照预定规则处理，形成所述机器学习模型输出的第二预测结果；以及
将所述第二预测结果输出给客户端。

2.根据权利要求1所述的方法，其中，所述对获取的用于训练所述机器学习模型的第一训练数据集进行数据分割和重构，得到第二训练数据集，包括：
将第一训练数据集分割成N份互斥的第一子数据集，其中，N为大于或等于2的整数；
对一个所述第一子数据集进行S轮有放回地随机抽样，得到S个第二子数据集；其中，对应于N个所述第一子数据集得到N*S个所述第二子数据集，S为大于或等于2的整数；
基于所述N*S个所述第二子数据集，得到所述第二训练数据集。

3.根据权利要求2所述的方法，其中，所述基于所述N*S个所述第二子数据集，得到所述第二训练数据集包括：
从一个所述第一子数据集抽样得到的S个所述第二子数据集中，随机删除L个所述第二子数据集，剩余S-L个所述第二子数据集；其中，对应于N个所述第一子数据集，剩余N*(S-L)个所述第二子数据集；其中，L为整数，且1≤L＜S；
将剩余的N*(S-L)个所述第二子数据集混合作为所述第二训练数据集。

4.根据权利要求3所述的方法，其中，所述从一个所述第一子数据集抽样得到的S个所述第二子数据集中，随机删除L个所述第二子数据集包括：
在从一个所述第一子数据集抽样得到的S个所述第二子数据集中，将每个所述第二子数据集与其相似度最高的另一所述第二子数据集作为一个数据集对；以及
随机删除每个所述数据集对中的一个所述第二子数据集。

5.根据权利要求2所述的方法，其中，N个所述第一子数据集的权重相同。

6.根据权利要求1～5任意一项所述的方法，其中，所述在预测阶段将所述G个个体模型各自输出的第一预测结果按照预定规则处理，形成所述机器学习模型输出的第二预测结果，包括：
将G个所述第一预测结果采用加权投票的方式汇总，得到中间预测结果；以及
基于所述中间预测结果，得到所...

【专利技术属性】
技术研发人员：张诚，吕博良，程佩哲，周京，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人