缓解不可测混淆因子导致的模型偏差的训练方法与系统技术方案

技术编号：35486331 阅读：27 留言：0更新日期：2022-11-05 16:39

本发明专利技术公开了一种缓解不可测混淆因子导致的模型偏差的训练方法及系统，相关方法包括：结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集，结合敏感性系数的不确定集建立第一损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第一损失函数；或者结合敏感性系数的不确定集与预先训练好的机器学习模型建立第二损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第二损失函数。本发明专利技术提供的方案，不需要人为干预及特定的专家领域知识，可以有效缓解不可测混淆因子导致的模型偏差。以有效缓解不可测混淆因子导致的模型偏差。以有效缓解不可测混淆因子导致的模型偏差。

全部详细技术资料下载

【技术实现步骤摘要】
缓解不可测混淆因子导致的模型偏差的训练方法与系统

[0001]本专利技术涉及机器学习
，尤其涉及一种缓解不可测混淆因子导致的模型偏差的训练方法与系统。

技术介绍

[0002]近年来，通过拟合庞大数据提供智能化服务的机器学习模型被广泛地应用于各个领域。然而由于观测数据天然存在着众多混淆因子(confounder)，使得拟合数据得到的模型深受偏差(bias)的影响。模型受到偏差影响指的是机器学习模型的输出与设计者的期望输出之间存在差异，例如，推荐模型倾向于反复推荐重复的、高流行度的短视频。随着机器学习模型的偏差特性得到与日俱增的重视，越来越多的方法被提出以缓解模型的偏差。
[0003]部分研究尝试借助结构化因果模型(structuralcausalmodel)技术帮助机器学习模型缓解偏差现象。这类方法需要具备两大前提条件：1)利用领域专家的先验知识，绘制出描述数据产生阶段各个关键要素间因果关系的因果图(causalgraph)；2)通过领域专家的介入找出所有的混淆因子，并测量混淆因子的具体数值。在因果图和混淆因子的相关知识帮助下，利用偏差纠正训练，最终缓和模型的偏差特性。另一部分研究则尝试借助基于倾向性系数(propensityscore)的方法缓解机器学习模型的偏差现象。这类方法在通过测量出的混淆因子具体数值计算出倾向性系数，再利用倾向性系数构造偏差纠正训练方法，使得模型训练过程可以屏蔽混响因子的影响，最终缓解模型的偏差特性。
[0004]然而，数据中潜在的混淆因子千变万化，且大多难以测量，难以满...

【技术保护点】

【技术特征摘要】
1.一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，包括：结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集，所述敏感性系数为倾向性系数的倒数；对于当前选择的基于倾向性系数的偏差纠正方法的损失函数，结合敏感性系数的不确定集建立第一损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第一损失函数；或者在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数，将多个用户物品对数据构成的数据集输入至待训练的机器学习模型，使用对抗训练的方式优化所述第二损失函数。2.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，所述结合用户物品对数据，通过敏感性分析，估计存在不可测混淆因子时的敏感性系数的不确定集包括：结合用户物品对数据，计算不存在不可测混淆因子时的倾向性系数；通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，结合不可测混淆因子对倾向性系数的影响，确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系，并估计存在不可测混淆因子时的敏感性系数的不确定集。3.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，所述通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，结合不可测混淆因子对倾向性系数的影响，确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系，并估计存在不可测混淆因子时的敏感性系数的不确定集包括：通过敏感性分析，构建存在不可测混淆因子时的倾向性系数结构方程，表示为：其中，表示存在不可测混淆因子时的倾向性系数，m(
·
)表示任意类型的函数，表示任意类型的函数，(u,i)表示用于一个用户物品对数据，u表示用户索引，i表示物品索引；x
u,i
表示一个用户物品对数据的特征，h
u,i
表示不可测混淆因子的特征，表示不可测混淆因子对倾向性系数的影响；给定不可测混淆因子对倾向性系数的影响的范围约束确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数p
u,i
之间的关系，表示为：经过简化得到：其中，Γ为设定值，
估计存在不可测混淆因子时的敏感性系数的不确定集W：估计存在不可测混淆因子时的敏感性系数的不确定集W：其中，表示单个敏感性系数，a
u,i
与b
u,i
表示敏感性系数的不确定集的下边界与上边界。4.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法，其特征在于，使用对抗训练的方式优化所述第一损失函数，或者使用对抗训练的方式优化所述第二损失函数包括：通过在敏感性系数的不确定集中选择敏感性系数使得第一损失函数的损失值持续变大，同时优化待训练的机器学习模型的参数，使得第一损失函数的损失值持续变小；或者，通过在敏感性系数的不确定集中选择敏感性系数使得第二损失函数的损失值持续变大，同时优化待训练的机器学习模型的参数，使得第二损失函数的损失值...

【专利技术属性】
技术研发人员：冯福利，丁斯昊，吴鹏，何向南，王奕曈，廖勇，张勇东，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人