缓解不可测混淆因子导致的模型偏差的训练方法与系统技术方案

技术编号:35486331 阅读:13 留言:0更新日期:2022-11-05 16:39
本发明专利技术公开了一种缓解不可测混淆因子导致的模型偏差的训练方法及系统,相关方法包括:结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集,结合敏感性系数的不确定集建立第一损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第一损失函数;或者结合敏感性系数的不确定集与预先训练好的机器学习模型建立第二损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第二损失函数。本发明专利技术提供的方案,不需要人为干预及特定的专家领域知识,可以有效缓解不可测混淆因子导致的模型偏差。以有效缓解不可测混淆因子导致的模型偏差。以有效缓解不可测混淆因子导致的模型偏差。

【技术实现步骤摘要】
缓解不可测混淆因子导致的模型偏差的训练方法与系统


[0001]本专利技术涉及机器学习
,尤其涉及一种缓解不可测混淆因子导致的模型偏差的训练方法与系统。

技术介绍

[0002]近年来,通过拟合庞大数据提供智能化服务的机器学习模型被广泛地应用于各个领域。然而由于观测数据天然存在着众多混淆因子(confounder),使得拟合数据得到的模型深受偏差(bias)的影响。模型受到偏差影响指的是机器学习模型的输出与设计者的期望输出之间存在差异,例如,推荐模型倾向于反复推荐重复的、高流行度的短视频。随着机器学习模型的偏差特性得到与日俱增的重视,越来越多的方法被提出以缓解模型的偏差。
[0003]部分研究尝试借助结构化因果模型(structuralcausalmodel)技术帮助机器学习模型缓解偏差现象。这类方法需要具备两大前提条件:1)利用领域专家的先验知识,绘制出描述数据产生阶段各个关键要素间因果关系的因果图(causalgraph);2)通过领域专家的介入找出所有的混淆因子,并测量混淆因子的具体数值。在因果图和混淆因子的相关知识帮助下,利用偏差纠正训练,最终缓和模型的偏差特性。另一部分研究则尝试借助基于倾向性系数(propensityscore)的方法缓解机器学习模型的偏差现象。这类方法在通过测量出的混淆因子具体数值计算出倾向性系数,再利用倾向性系数构造偏差纠正训练方法,使得模型训练过程可以屏蔽混响因子的影响,最终缓解模型的偏差特性。
[0004]然而,数据中潜在的混淆因子千变万化,且大多难以测量,难以满足现有的模型偏差缓解方法的前提条件。例如,应用于推荐系统的机器学习模型使用的训练数据中存在:用户收入情况,用户社会地位,商品流行度等各式各样的潜在混淆影子,导致现有的方法失效。

技术实现思路

[0005]本专利技术的目的是提供一种缓解不可测混淆因子导致的模型偏差的训练方法与系统,通过敏感性分析估计敏感性系数的不确定集,并进行模型训练,增加模型对潜在混淆因子的鲁棒性,实现对机器学习模型偏差特性的缓解。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种缓解不可测混淆因子导致的模型偏差的训练方法,包括:
[0008]结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集,所述敏感性系数为倾向性系数的倒数;
[0009]对于当前选择的基于倾向性系数的偏差纠正方法的损失函数,结合敏感性系数的不确定集建立第一损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第一损失函数;或者在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第二损失函数。
[0010]一种缓解不可测混淆因子导致的模型偏差的训练系统,包括:
[0011]敏感性分析单元,用于结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集,所述敏感性系数为倾向性系数的倒数;
[0012]训练单元,用于对于当前选择的基于倾向性系数的偏差纠正方法的损失函数,结合敏感性系数的不确定集建立第一损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第一损失函数;或者在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第二损失函数。
[0013]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0014]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0015]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0016]由上述本专利技术提供的技术方案可以看出,在混淆因子数目、数值不可测,且不进行额外假设的前提下通过敏感性分析估计敏感性系数的不确定集,结合敏感性系数的不确定集构造损失函数进行模型训练,可以增加模型对潜在混淆因子的鲁棒性,并且通过对抗性策略,保证机器学习模型对不确定集中可能的任意倾向性系数都有良好的性能,有效地缓解了模型的偏差现象。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0018]图1为本专利技术实施例提供的一种缓解不可测混淆因子导致的模型偏差的训练方法的流程图;
[0019]图2为本专利技术实施例提供的一种缓解不可测混淆因子导致的模型偏差的训练系统的示意图;
[0020]图3为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0021]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0022]首先对本文中可能使用的术语进行如下说明:
[0023]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部
件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0024]下面对本专利技术所提供的一种缓解不可测混淆因子导致的模型偏差的训练方案进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本专利技术实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
[0025]实施例一
[0026]本专利技术实施例提供一种缓解不可测混淆因子导致的模型偏差的训练方法,如图1所示,主要包括:
[0027]1、结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集,所述敏感性系数为倾向性系数的倒数。
[0028]本步骤的优选实施方式如下:
[0029](1)结合用户物品对数据,计算不存在不可测混淆因子时的倾向性系数。
[0030](2)通过敏感性分析,构建存在不可测混淆因子时的倾向性系数结构方程,结合不可测混淆因子对倾向性系数的影响,确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种缓解不可测混淆因子导致的模型偏差的训练方法,其特征在于,包括:结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集,所述敏感性系数为倾向性系数的倒数;对于当前选择的基于倾向性系数的偏差纠正方法的损失函数,结合敏感性系数的不确定集建立第一损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第一损失函数;或者在所述第一损失函数的基础上结合预先训练好的机器学习模型建立第二损失函数,将多个用户物品对数据构成的数据集输入至待训练的机器学习模型,使用对抗训练的方式优化所述第二损失函数。2.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法,其特征在于,所述结合用户物品对数据,通过敏感性分析,估计存在不可测混淆因子时的敏感性系数的不确定集包括:结合用户物品对数据,计算不存在不可测混淆因子时的倾向性系数;通过敏感性分析,构建存在不可测混淆因子时的倾向性系数结构方程,结合不可测混淆因子对倾向性系数的影响,确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系,并估计存在不可测混淆因子时的敏感性系数的不确定集。3.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法,其特征在于,所述通过敏感性分析,构建存在不可测混淆因子时的倾向性系数结构方程,结合不可测混淆因子对倾向性系数的影响,确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数之间的关系,并估计存在不可测混淆因子时的敏感性系数的不确定集包括:通过敏感性分析,构建存在不可测混淆因子时的倾向性系数结构方程,表示为:其中,表示存在不可测混淆因子时的倾向性系数,m(
·
)表示任意类型的函数,表示任意类型的函数,(u,i)表示用于一个用户物品对数据,u表示用户索引,i表示物品索引;x
u,i
表示一个用户物品对数据的特征,h
u,i
表示不可测混淆因子的特征,表示不可测混淆因子对倾向性系数的影响;给定不可测混淆因子对倾向性系数的影响的范围约束确定存在不可测混淆因子时的倾向性系数与不存在不可测混淆因子时的倾向性系数p
u,i
之间的关系,表示为:经过简化得到:其中,Γ为设定值,
估计存在不可测混淆因子时的敏感性系数的不确定集W:估计存在不可测混淆因子时的敏感性系数的不确定集W:其中,表示单个敏感性系数,a
u,i
与b
u,i
表示敏感性系数的不确定集的下边界与上边界。4.根据权利要求1所述的一种缓解不可测混淆因子导致的模型偏差的训练方法,其特征在于,使用对抗训练的方式优化所述第一损失函数,或者使用对抗训练的方式优化所述第二损失函数包括:通过在敏感性系数的不确定集中选择敏感性系数使得第一损失函数的损失值持续变大,同时优化待训练的机器学习模型的参数,使得第一损失函数的损失值持续变小;或者,通过在敏感性系数的不确定集中选择敏感性系数使得第二损失函数的损失值持续变大,同时优化待训练的机器学习模型的参数,使得第二损失函数的损失值...

【专利技术属性】
技术研发人员:冯福利丁斯昊吴鹏何向南王奕曈廖勇张勇东
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1