System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开大体上涉及机器学习,并且更具体地,涉及一种用于对机器学习(ml)模型加水印的方法。
技术介绍
1、越来越多的功能正经由机器学习(ml)实施。ml的一些良好特性包括灵活性、处理大量数据的能力、易于定制以及解决可能难以用非机器学习算法解决的问题的能力。机器学习模型可按机器学习模型的训练方式进行分类,例如有监督学习、无监督学习、半监督学习和强化学习。在有监督学习中,使用给出所要输出的数据来训练ml模型。此训练数据包括所述训练数据的每个样本上的标签。对于分类问题,所述标签可以是类别或类。对于回归问题,标签可以是值。
2、ml模型的有效性由例如其准确性、执行时间、存储要求以及训练数据的质量(以及数量)来确定。对特定训练数据的存取可将ml模型与其它ml模型区分开,并使该ml模型成为有价值的资产。然而,已证明,在ml模型被安全地存储在例如云中的服务器中或通过具有平台安全性而安全地存储的情况下,ml模型仍可能易受试图窃取该ml模型的攻击者的攻击。例如,已表明,只有经由ml模型的应用编程接口(api)对ml模型的输入/输出行为的黑盒存取才能足以获得该ml模型的几乎精确的副本或克隆。一旦以此方式获取了机器学习模型的副本,敌手就可用副本套现。由于敌手不必投资ml模型的开发,因此敌手可以低得多的成本来完成这一点。
3、水印通常用于标记和证明文件的所有权。将水印嵌入ml模型中可能需要用关于水印的信息来训练模型,这可能改变模型的功能。另外,水印需要对攻击者隐藏。水印还需要是可检测的,同时在ml模型被复制时难以移除或修改。有效地
4、因此,需要一种方法来对ml模型加水印而无上文所描述的至少一些问题。
技术实现思路
1、根据实施例,提供一种用于对机器学习模型(ml)加水印的方法,该方法包括:从训练数据集合中选择多个输入样本以用于将水印嵌入到所述ml模型中;产生位序列;将所述位序列划分成位的分块集合;将选定多个输入样本划分成输入样本子集,其中所述输入样本子集中的每个子集中的所有所述输入样本标记有所述ml模型的问题域中的相同第一标签;将所述分块集合中的每个分块与标记的输入样本子集中的子集组合以产生多个标记的触发样本;将多个标记的触发样本集合中的每个集合的每个触发样本重新标记成具有不同于所述第一标签并处于所述ml模型的所述问题域中的第二标签,以产生重新标记的触发样本集合;以及利用标记的训练输入样本集合和所述重新标记的触发样本集合训练所述ml模型以产生加水印的ml模型。所述位序列可根据文本字符序列而确定。文本字符序列可包括至少100个文本字符。ml模型可包括神经网络。所述方法还可包括在所述分块集合中的每个分块与所述标记的输入样本子集中的子集的所述组合之前,将从第一向量空间到第二向量空间的可逆仿射映射函数应用于所述标记的输入样本子集。所述方法还可包括在利用所述标记的训练输入样本集合和所述重新标记的触发样本集合进行所述ml模型的所述训练之前,将所述可逆仿射映射函数的逆应用于所述重新标记的触发样本集合。将所述分块集合中的每个分块与所述标记的输入样本子集中的子集组合还可包括创建标记的触发样本,其中所述标记的触发样本包括第一部分条目和第二部分条目,其中所述第一部分条目可包括所述分块集合中的分块,并且其中所述第二部分条目中的至少一个条目可填充有所述标记的输入样本子集中的一个子集的样本,并且所述第二部分的所有其它条目可被设置为零。根据文本字符序列来确定所述位序列,其中通过建立下限与上限之间的区间以对字母表的字符进行编码来创建每个文本字符分块,并且其中所述区间的所述下限和上限由所述多个输入样本的一系列等间隔值来确定,并且每个字符在所述区间中具有指派位置。对所述触发样本中的每一者的所述重新标记可包括将所述第一标签打乱于所述多个标记的触发样本集合中的每个集合之间。标记的ml训练样本集合可包括从多个传感器收集的传感器数据。
2、在另一实施例中,提供一种存储在非暂时性介质上的计算机程序,所述计算机程序包括可执行指令,所述可执行指令在由处理器执行时为机器学习(ml)模型提供加水印,所述指令包括:用于选择多个输入样本以用于训练所述ml模型的指令;用于产生位序列的指令;用于将所述位序列划分成位的分块集合的指令;用于将选定多个输入样本划分成输入样本子集的指令,其中所述输入样本子集中的每个子集中的所有所述输入样本标记有所述ml模型的问题域中的相同第一标签;用于将所述分块集合中的每个分块与标记的输入样本子集中的子集组合以产生多个标记的触发样本的指令;用于将多个标记的触发样本集合中的每个集合的每个触发样本重新标记成具有不同于所述第一标签并处于所述ml模型的所述问题域中的第二标签以产生重新标记的触发样本集合的指令;以及用于利用标记的训练输入样本集合和所述重新标记的触发样本集合训练所述ml模型以产生加水印的ml模型的指令。所述位序列可根据文本字符序列而确定。所述文本字符序列可包括至少100个字符。所述ml模型可包括用于分析传感器数据的神经网络。所述计算机程序还可包括用于在所述分块集合中的每个分块与所述标记的输入样本子集中的子集的所述组合之前应用所述标记的输入样本子集从第一向量空间到第二向量空间的可逆仿射映射的指令。所述计算机程序还可包括用于在利用所述标记的训练输入样本集合和所述重新标记的触发样本集合进行所述ml模型的所述训练之前应用所述重新标记的触发样本集合的所述可逆仿射映射的逆的指令。用于将所述分块集合中的每个文本字符分块与标记的输入样本子集中的子集组合的所述指令还可包括用于创建标记的触发样本的指令,其中所述标记的触发样本包括第一部分条目和第二部分条目,其中所述第一部分条目包括所述分块集合中的文本字符分块,并且其中所述第二部分条目中的至少一个条目填充有所述标记的输入样本子集中的一个子集的样本,并且所述第二部分的所有其它条目被设置为零。所述ml模型还包括丢弃层。可通过建立下限与上限之间的区间以对字母表的字符进行编码来创建每个文本字符分块,其中所述区间的所述下限和上限由所述多个输入样本的一系列等间隔值来确定,并且每个字符在所述区间中具有指派位置。用于所述触发样本中的每一者的重新标记的指令包括将所述第一标签打乱于所述多个标记的触发样本集合中的每个集合之间。标记的ml训练样本集合包括从多个传感器收集的传感器数据。
本文档来自技高网...【技术保护点】
1.一种用于对机器学习模型ML加水印的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,还包括:在所述分块集合中的每个分块与所述标记的输入样本子集中的子集的所述组合之前,将从第一向量空间到第二向量空间的可逆仿射映射函数应用于所述标记的输入样本子集。
3.根据权利要求2所述的方法,其特征在于,还包括在利用所述标记的训练输入样本集合和所述重新标记的触发样本集合进行所述ML模型的所述训练之前,将所述可逆仿射映射函数的逆应用于所述重新标记的触发样本集合。
4.根据权利要求1所述的方法,其特征在于,将所述分块集合中的每个分块与所述标记的输入样本子集中的子集组合还包括创建标记的触发样本,其中所述标记的触发样本包括第一部分条目和第二部分条目,其中所述第一部分条目包括所述分块集合中的分块,并且其中所述第二部分条目中的至少一个条目填充有所述标记的输入样本子集中的一个子集的样本,并且所述第二部分的所有其它条目被设置为零。
5.根据权利要求1所述的方法,其特征在于,根据文本字符序列来确定所述位序列,其中通过建立下限与上限之间的区
6.一种存储在非暂时性介质上的计算机程序,其特征在于,所述计算机程序包括可执行指令,所述可执行指令在由处理器执行时为机器学习ML模型提供加水印,所述指令包括:
7.根据权利要求6所述的计算机程序,其特征在于,还包括:用于在所述分块集合中的每个分块与所述标记的输入样本子集中的子集的所述组合之前应用所述标记的输入样本子集从第一向量空间到第二向量空间的可逆仿射映射的指令。
8.根据权利要求7所述的计算机程序,其特征在于,还包括用于在利用所述标记的训练输入样本集合和所述重新标记的触发样本集合进行所述ML模型的所述训练之前应用所述重新标记的触发样本集合的所述可逆仿射映射的逆的指令。
9.根据权利要求6所述的计算机程序,其特征在于,用于将所述分块集合中的每个文本字符分块与标记的输入样本子集中的子集组合的所述指令还包括用于创建标记的触发样本的指令,其中所述标记的触发样本包括第一部分条目和第二部分条目,其中所述第一部分条目包括所述分块集合中的文本字符分块,并且其中所述第二部分条目中的至少一个条目填充有所述标记的输入样本子集中的一个子集的样本,并且所述第二部分的所有其它条目被设置为零。
10.根据权利要求6所述的计算机程序,其特征在于,通过建立下限与上限之间的区间以对字母表的字符进行编码来创建每个文本字符分块,其中所述区间的所述下限和上限由所述多个输入样本的一系列等间隔值来确定,并且每个字符在所述区间中具有指派位置。
...【技术特征摘要】
1.一种用于对机器学习模型ml加水印的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,还包括:在所述分块集合中的每个分块与所述标记的输入样本子集中的子集的所述组合之前,将从第一向量空间到第二向量空间的可逆仿射映射函数应用于所述标记的输入样本子集。
3.根据权利要求2所述的方法,其特征在于,还包括在利用所述标记的训练输入样本集合和所述重新标记的触发样本集合进行所述ml模型的所述训练之前,将所述可逆仿射映射函数的逆应用于所述重新标记的触发样本集合。
4.根据权利要求1所述的方法,其特征在于,将所述分块集合中的每个分块与所述标记的输入样本子集中的子集组合还包括创建标记的触发样本,其中所述标记的触发样本包括第一部分条目和第二部分条目,其中所述第一部分条目包括所述分块集合中的分块,并且其中所述第二部分条目中的至少一个条目填充有所述标记的输入样本子集中的一个子集的样本,并且所述第二部分的所有其它条目被设置为零。
5.根据权利要求1所述的方法,其特征在于,根据文本字符序列来确定所述位序列,其中通过建立下限与上限之间的区间以对字母表的字符进行编码来创建每个文本字符分块,并且其中所述区间的所述下限和上限由所述多个输入样本的一系列等间隔值来确定,并且每个字符在所述区间中具有指派位置。
6.一种存储在非暂时性介质上的计算机程序,其特征...
【专利技术属性】
技术研发人员:威赫穆斯·P·A·J·米歇尔,简·胡格布鲁格,弗雷德里克·德克·沙利,
申请(专利权)人:恩智浦有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。