本发明专利技术公开了一种可验证的分布外泛化方法、介质和电子设备。该方法包括:使用核化线性回归近似深度神经网络模型;对所述深度神经网络模型进行随机扰动学习,以推导出用于分离样本的分类器;确定所述深度神经网络模型的泛化集合和认证精度,其中,当语义信息的扰动范围在所述泛化集合时,所述深度网络模型能够输出正确的预测,所述语义信息定义为级联该深度神经网络模型中间层的表示。本发明专利技术为输入数据在语义空间上的预测提供理论验证,并能够在以相关偏移或多样性偏移为主的分布外数据集上实现更好的性能。现更好的性能。现更好的性能。
【技术实现步骤摘要】
一种可验证的分布外泛化方法、介质和电子设备
[0001]本专利技术涉及人工智能
,更具体地,涉及一种可验证的分布外泛化方法、介质和电子设备。
技术介绍
[0002]深度学习模型已应用了多种领域,包括计算机视觉和自然语言处理等。然而,传统算法仅对独立且同分布的数据集表现出优于人类的行为,而对于分布外(OoD,Out ofDistribution)数据,模型性能会显著下降,这阻碍了深度学习在很多方面的应用,尤其是医疗保健、自动驾驶和证券等高风险领域。在这些领域,训练数据和测试数据之间的分布变化无处不在,机器学习的错误预测带来的影响非常严重。现有方法无法在不同类型的分布移位数据集上实现理想的性能。此外,在没有理论保证的情况下,尚不清楚现有方法如何以及在多大程度上适用于任一OoD数据。
[0003]目前,针对测试数据与训练数据分布相同的分布外(OoD)数据,已经提出了一些方法来缓解模型性能的退化,但由于OoD泛化问题的复杂性,模型必须泛化到各种看不见的领域,现有的方法很难在不同类型的分布转移上同时实现比经验风险最小化方法(ERM)更好的性能。
[0004]一般来说,为了缓解上述问题,研究人员建议使用具有大量参数的更大的数据集和模型。但收集和使用大数据往往耗财耗力,并且不能广泛适用于真实场景应用。另外,也有研究者提出了OoD泛化算法,但通常仅对一种类型的分布偏移表现出偏好,而对另一种类型的分布偏移却没有效果。
[0005]OoD泛化是在训练和测试之间的分布变化下泛化模型性能的任务,这与对抗性防御形成鲜明对比,对抗性防御的目标是拥有一个强大的分类器,以防止添加微小扰动到图像中,这些扰动类似于图像中的噪声。OoD泛化侧重于将具有相同语义信息但不同环境或样式信息的数据归入分类,可以说在实际场景中比蓄意的对抗性攻击更常见。例如,模型必须泛化到看不见的环境以确保自动驾驶的安全性。现有的OoD泛化算法通常可分为四种类型:基于领域泛化的方法,侧重于学习从不同环境收集的数据中的连贯模式;基于不变学习的方法,排除数据中存在的虚假相关性;分布稳健的优化方法,根据原始数据构建具有挑战性的数据分布;利用因果推理技术的基于因果学习的方法。这些方法已经证明了OoD泛化任务的实证改进,而它们在OoD泛化的理论性能方面,很大程度上尚未开发。
[0006]研究发现,OoD泛化数据集中存在多个维度,而现有算法通常在一个维度上比ERM表现更好,但在另一个维度上不如ERM。这些维度可被描述为多样性偏移或相关偏移。多样性转变被正式定义为环境语义特征的训练和测试概率密度函数(p.d.f.s)对两个分布支持之间总体差异的差异。相比之下,相关偏移被定义为训练和测试边际p.d.f.s在训练和测试分布的交叉点上的环境语义特征的差异。目前很少有方法能够同时在两种OoD转换上获得比ERM更好的性能。
[0007]此外,现有理论大多需要在约束条件下进行假设和优化。最受欢迎的方向之一是
在鲁棒性优化框架下的分布式稳健优化(DRO)。DRO背后的理论是最小化以训练分布为中心的不确定分布集的最坏情况风险。在这种情况下,可以自由选择合理的距离度量(例如f
‑
Divergence、Wasserstein距离、MMD)来定义不确定性集,从各种角度来解决OoD泛化问题。Gao和Kleywegt在2016年提出最坏情况风险的界限是在损失函数对任何黑盒机器学习函数有界的最小假设下获得的。另一个研究方向是基于不变性的优化,它定义了一个基于信息论的优化问题,即两个随机变量之间的Shannon mutual信息在不变集下得到优化。
[0008]综上,研究人员通常使用具有大量参数的更大数据集和模型来进行OoD泛化,现有方案未解决OoD数据泛化的基本问题。例如,尽管自动驾驶行业已投入数十亿美元来收集数据,但自动驾驶汽车仍难以实现稳健的目标检测。此外,在大型自然语言处理模型中,如GPT
‑
3,需要奇怪的提示才能得出正确答案。例如,如果将问题“The capital of Belgium is”发送给模型,它会输出“A nice city”;但是,如果在问题中添加前缀:“法国的首都是巴黎”,模型才能得出正确答案。总之,现有的OoD算法局限性在于,模型预测结果仅在小的分布变化下有效,并且派生的界限无法进行数值计算。并且,有时需要对损失函数或机器学习模型施加强有力的假设以保证有效性。这些限制使得这些模型很难应用于分布变化通常很大的现实世界数据。
技术实现思路
[0009]本专利技术的目的是克服上述现有技术的缺陷,提供一种可验证的分布外泛化方法、介质和电子设备。
[0010]根据本专利技术的第一方面,提供一种可验证的分布外泛化方法。该方法包括:
[0011]使用核化线性回归近似深度神经网络模型;
[0012]对所述深度神经网络模型进行随机扰动学习,以推导出用于分离样本的分类器;
[0013]确定所述深度神经网络模型的泛化集合,其中,当语义信息的扰动范围在所述泛化集合时,所述深度网络模型能够输出正确的预测,所述语义信息定义为级联该深度神经网络模型中间层的表示。
[0014]根据本专利技术的第二方面,提供一种计算机非暂态可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现以下步骤:
[0015]使用核化线性回归近似深度神经网络模型;
[0016]对所述深度神经网络模型进行随机扰动学习,以推导出用于分离样本的分类器;
[0017]确定所述深度神经网络模型的泛化集合,其中,当语义信息的扰动范围在所述泛化集合时,所述深度网络模型能够输出正确的预测,所述语义信息定义为级联该深度神经网络模型中间层的表示。
[0018]根据本专利技术的第三方面,提供一种电子设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0019]使用核化线性回归近似深度神经网络模型;
[0020]对所述深度神经网络模型进行随机扰动学习,以推导出用于分离样本的分类器;
[0021]确定所述深度神经网络模型的泛化集合,其中,当语义信息的扰动范围在所述泛化集合时,所述深度网络模型能够输出正确的预测,所述语义信息定义为级联该深度神经
网络模型中间层的表示。
[0022]与现有技术相比,本专利技术的优点在于,提出了一种针对OoD泛化中分布偏移的可证明方法,该方法利用随机分布和每个输入数据的最大间隔学习的优化框架提供OoD泛化性能保证。本专利技术可以为语义空间上的每个输入数据提供经过验证的预测精度,并能够在由相关偏移或多样性偏移(或两者兼具)主导的OoD数据集上实现更好的性能。
[0023]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0024]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种可验证的分布外泛化方法,包括以下步骤:使用核化线性回归近似深度神经网络模型;对所述深度神经网络模型进行随机扰动学习,以推导出用于分离样本的分类器;确定所述深度神经网络模型的泛化集合,其中,当语义信息的扰动范围在所述泛化集合时,所述深度网络模型能够输出正确的预测,所述语义信息定义为级联该深度神经网络模型中间层的表示。2.根据权利要求1所述的方法,其特征在于,在对所述深度神经网络模型进行随机扰动学习过程中,将数据对(X
i
,Y
i
)的随机扰动损失的期望设置为:其中,z是深度神经网络模型学习的中间表示,σ是高斯分布的方差,表示L层的深度神经网络模型,θ是深度神经网络模型的参数,π0是随机扰动的分布,表示损失函数,η是符合高斯分布的随机干扰。3.根据权利要求1所述的方法,其特征在于,采用最大间隔训练对所述深度神经网络模型进行随机扰动学习,训练的优化目标设置为:其中,是神经正切核,C是超参数,X
i
和y
i
表示第i条输入数据对,n表示输入数据对的数量,Training loss表示训练损失,w是深度神经网络模型最后一层的参数,w0是深度神经网络模型最后一层的初始化,π0是随机扰动的分布,用于标记随机扰动下的深度神经网络模型。4.根据权利要求3所述的方法,其特征在于,根据以下步骤确定所述深度神经网络模型的泛化集合:求解以下问题:通过求解来确定泛化集合其中:
其中,η是随机干扰,f表示...
【专利技术属性】
技术研发人员:叶南阳,顾钦颖,朱琳,王佳,曾兆钰,邵佳瑶,彭晨晟,潘比康,李楷灿,朱军,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。