一种可验证的分布外泛化方法、介质和电子设备技术

技术编号：38326194 阅读：31 留言：0更新日期：2023-07-29 09:08

本发明专利技术公开了一种可验证的分布外泛化方法、介质和电子设备。该方法包括：使用核化线性回归近似深度神经网络模型；对所述深度神经网络模型进行随机扰动学习，以推导出用于分离样本的分类器；确定所述深度神经网络模型的泛化集合和认证精度，其中，当语义信息的扰动范围在所述泛化集合时，所述深度网络模型能够输出正确的预测，所述语义信息定义为级联该深度神经网络模型中间层的表示。本发明专利技术为输入数据在语义空间上的预测提供理论验证，并能够在以相关偏移或多样性偏移为主的分布外数据集上实现更好的性能。现更好的性能。现更好的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种可验证的分布外泛化方法、介质和电子设备

[0001]本专利技术涉及人工智能
，更具体地，涉及一种可验证的分布外泛化方法、介质和电子设备。

技术介绍

[0002]深度学习模型已应用了多种领域，包括计算机视觉和自然语言处理等。然而，传统算法仅对独立且同分布的数据集表现出优于人类的行为，而对于分布外(OoD，Out ofDistribution)数据，模型性能会显著下降，这阻碍了深度学习在很多方面的应用，尤其是医疗保健、自动驾驶和证券等高风险领域。在这些领域，训练数据和测试数据之间的分布变化无处不在，机器学习的错误预测带来的影响非常严重。现有方法无法在不同类型的分布移位数据集上实现理想的性能。此外，在没有理论保证的情况下，尚不清楚现有方法如何以及在多大程度上适用于任一OoD数据。
[0003]目前，针对测试数据与训练数据分布相同的分布外(OoD)数据，已经提出了一些方法来缓解模型性能的退化，但由于OoD泛化问题的复杂性，模型必须泛化到各种看不见的领域，现有的方法很难在不同类型的分布转移上同时实现比经验风险最小化方法(ERM)更好的性能。
[0004]一般来说，为了缓解上述问题，研究人员建议使用具有大量参数的更大的数据集和模型。但收集和使用大数据往往耗财耗力，并且不能广泛适用于真实场景应用。另外，也有研究者提出了OoD泛化算法，但通常仅对一种类型的分布偏移表现出偏好，而对另一种类型的分布偏移却没有效果。
[0005]OoD泛化是在训练和测试之间的分布变化下泛化模型性能的任务，这与对抗性防御形...

【技术保护点】

【技术特征摘要】
1.一种可验证的分布外泛化方法，包括以下步骤：使用核化线性回归近似深度神经网络模型；对所述深度神经网络模型进行随机扰动学习，以推导出用于分离样本的分类器；确定所述深度神经网络模型的泛化集合，其中，当语义信息的扰动范围在所述泛化集合时，所述深度网络模型能够输出正确的预测，所述语义信息定义为级联该深度神经网络模型中间层的表示。2.根据权利要求1所述的方法，其特征在于，在对所述深度神经网络模型进行随机扰动学习过程中，将数据对(X
i
，Y
i
)的随机扰动损失的期望设置为：其中，z是深度神经网络模型学习的中间表示，σ是高斯分布的方差，表示L层的深度神经网络模型，θ是深度神经网络模型的参数，π0是随机扰动的分布，表示损失函数，η是符合高斯分布的随机干扰。3.根据权利要求1所述的方法，其特征在于，采用最大间隔训练对所述深度神经网络模型进行随机扰动学习，训练的优化目标设置为：其中，是神经正切核，C是超参数，X
i
和y
i
表示第i条输入数据对，n表示输入数据对的数量，Training loss表示训练损失，w是深度神经网络模型最后一层的参数，w0是深度神经网络模型最后一层的初始化，π0是随机扰动的分布，用于标记随机扰动下的深度神经网络模型。4.根据权利要求3所述的方法，其特征在于，根据以下步骤确定所述深度神经网络模型的泛化集合：求解以下问题：通过求解来确定泛化集合其中：
其中，η是随机干扰，f表示...

【专利技术属性】
技术研发人员：叶南阳，顾钦颖，朱琳，王佳，曾兆钰，邵佳瑶，彭晨晟，潘比康，李楷灿，朱军，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人