本申请提供一种数据集公平性检测方法、装置、电子设备及存储介质,该方法包括:获取需要检测的原始数据集;基于原始数据集,确定原始数据集中数据的数据类型,选取数据类型对应的目标模型,采用目标模型对原始数据集进行拟合,得到模型参数矩阵;根据模型参数矩阵,对原始数据集中每个样本进行歧视性检测,得到歧视性检测结果,根据歧视性检测结果,确定第一歧视样本集;根据模型参数矩阵和第一歧视样本集,确定第二歧视样本集;将第一歧视样本集和第二歧视样本集合并,得到原始数据集对应的歧视样本集,以采用歧视样本集度量原始数据集的歧视性水平。该方案扩展了公平性检测的应用场景,且拟合能力和泛化能力强。且拟合能力和泛化能力强。且拟合能力和泛化能力强。
【技术实现步骤摘要】
一种数据集公平性检测方法、装置、电子设备及存储介质
[0001]本专利技术属于人工智能
,特别涉及一种数据集公平性检测方法、装置、电子设备及存储介质。
技术介绍
[0002]人工智能与人类生活的关系越来越密切,由此引发了新的法律、伦理以及技术问题。准确度不再是衡量机器学习算法成功的唯一标准,安全性和公平性约束已成为研究人员和工程师面临的一个巨大问题。算法的公平性强弱会对许多决策问题产生不同程度的正面或负面影响。
[0003]大量研究表明,某些特定属性会显著影响机器学习模型的拟合效果,例如将两个仅性别属性不同的样本放入同一个模型中可能会导致模型分类结果的不同,这就是机器学习领域中的歧视性问题,而像性别这样会影响模型分类结果的属性则称之为被保护属性。出现歧视性问题的原因有很多,但是原则上来说,如果一个数据集对被保护属性存在歧视,那么在该数据集上训练的预测模型就会产生歧视。所以算法不是完全客观中立的,算法容易受到数据集中歧视性样本的影响,从而使算法做出的决定“不公平”。
[0004]机器学习的公平性研究根据研究阶段的不同可以划分为公平表征任务、公平建模任务以及公平决策任务三大研究方向,对于数据集公平性测试领域的研究目前主要是采用对抗攻击的方法。对抗攻击又分为黑盒攻击和白盒攻击两大类,黑盒攻击是指攻击者并不清楚所要攻击模型的具体细节,而白盒攻击则恰恰相反,是在完全了解目标模型内部细节的前提下进行的攻击。
[0005]目前AEQUITAS算法是数据集公平性测试领域较为出色的测试方法之一,其运用梯度攻击方法,采用两阶段生成框架进行公平性测试。但是该算法在测试过程中仍然存在以下问题:1)测试对象较为单一,该方法只能对表格型数据进行检测,并不能对其他数据集(比如文本类型数据)进行检测,应用场景较少;2)该模型虽然采用两阶段生成框架进行检测,但是并没有根据样本的具体梯度进行差异化处理,仅采用随机扰动的方法对样本空间进行搜索,导致检测耗时较长且准确度不高,模型的拟合能力和泛化能力也相对较差。
技术实现思路
[0006]本说明书实施例的目的是提供一种数据集公平性检测方法、装置、电子设备及存储介质。
[0007]为解决上述技术问题,本申请实施例通过以下方式实现的:
[0008]第一方面,本申请提供一种数据集公平性检测方法,该方法包括:
[0009]获取需要检测的原始数据集;
[0010]基于原始数据集,确定原始数据集中数据的数据类型,选取数据类型对应的目标模型,采用目标模型对原始数据集进行拟合,得到模型参数矩阵;
[0011]根据模型参数矩阵,对原始数据集中每个样本进行歧视性检测,得到歧视性检测
结果,根据歧视性检测结果,确定第一歧视样本集;
[0012]根据模型参数矩阵和第一歧视样本集,确定第二歧视样本集;
[0013]将第一歧视样本集和第二歧视样本集合并,得到原始数据集对应的歧视样本集,以采用歧视样本集度量原始数据集的歧视性水平。
[0014]在其中一个实施例中,原始数据集中数据的数据类型包括表格型数据和文本型数据;
[0015]若数据类型为表格型数据,对应的目标模型为前馈神经网络模型;
[0016]若数据类型为文本型数据,对应的目标模型为双向长短期记忆模型。
[0017]在其中一个实施例中,基于原始数据集,确定原始数据集中数据的数据类型,选取数据类型对应的目标模型,采用目标模型对原始数据集进行拟合,得到模型参数矩阵,包括:
[0018]从原始数据集中随机抽取一条数据;
[0019]判断数据的数据类型;
[0020]若数据的数据类型为表格型数据,则采用前馈神经网络模型对原始数据集进行拟合;若数据的数据类型为文本型数据,则采用双向长短期记忆模型对原始数据集进行拟合;得到模型各层参数,将所有模型各层参数组合形成模型参数矩阵。
[0021]在其中一个实施例中,样本包括被保护属性变量;
[0022]对样本进行歧视性检测,包括:
[0023]逐个改变样本中被保护属性变量,得到新样本集,新样本集包括若干新样本,其中,每改变一个被保护属性变量形成一个新样本;
[0024]将样本及新样本分别输入目标模型,分别得到第一模型输出结果和第二模型输出结果,所有第二模型输出结果构成第二模型输出结果集;
[0025]若第二模型输出结果集中存在至少一个第二模型输出结果与第一模型输出结果不同,则样本通过歧视性检测,否则,样本未通过歧视性检测。
[0026]在其中一个实施例中,根据歧视性检测结果,确定第一歧视样本集,包括:
[0027]如果歧视性检测结果为通过歧视性检测,则将通过歧视性检测对应的样本添加至第一歧视样本集;
[0028]如果歧视性检测结果为未通过歧视性检测,则对未通过歧视性检测对应的样本进行全局扰动,得到扰动后样本,对扰动后样本重新进行歧视性检测,直到未通过歧视性检测对应的样本通过歧视性检测为止。
[0029]在其中一个实施例中,样本还包括非保护属性变量;
[0030]对未通过歧视性检测对应的样本进行全局扰动,得到扰动后样本,包括:
[0031]根据第一模型输出结果和第二模型输出结果集,从新样本集选取与样本相似度最低的对应样本;
[0032]根据模型参数矩阵分别计算样本与对应样本的第一梯度集和第二梯度集,第一梯度集中包括非保护属性变量的第一梯度值,第二梯度集中包括非保护属性变量的第二梯度值;
[0033]对应比较第一梯度值和第二梯度值,将梯度值较大的非保护属性变量的梯度方向确定为非保护属性变量的扰动方向;
[0034]根据所有非保护属性变量的扰动方向,确定样本的全局扰动的方向矩阵;
[0035]根据全局扰动的方向矩阵,确定扰动后样本。
[0036]在其中一个实施例中,根据模型参数矩阵和第一歧视样本集,确定第二歧视样本集,包括:
[0037]获取第一歧视样本集中任意一个歧视样本;
[0038]改变歧视样本中其中一个被保护属性变量,得到新歧视样本;
[0039]将歧视样本和新歧视样本,分别输入目标模型,得到第三模型输出结果和第四模型输出结果;
[0040]判断第三模型输出结果和第四模型输出结果是否相同;
[0041]若第三模型输出结果和第四模型输出结果相同,则返回执行改变歧视样本中其中一个被保护属性变量;
[0042]若第三模型输出结果和第四模型输出结果不相同,则根据模型参数矩阵分别确定歧视样本的第三梯度值和新歧视样本的第四梯度值;
[0043]根据第三梯度值和第四梯度值,确定歧视样本每个属性变量对模型输出结果的贡献度;
[0044]根据贡献度,确定对歧视样本的模型输出结果影响最大的k个属性变量;
[0045]对k个属性变量进行局部扰动,得到歧视样本的派生样本;
[0046]对所有派生样本均进行歧视性检测,将通过歧视性检测的派生本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据集公平性检测方法,其特征在于,所述方法包括:获取需要检测的原始数据集;基于所述原始数据集,确定所述原始数据集中数据的数据类型,选取所述数据类型对应的目标模型,采用所述目标模型对所述原始数据集进行拟合,得到模型参数矩阵;根据所述模型参数矩阵,对所述原始数据集中每个样本进行歧视性检测,得到歧视性检测结果,根据所述歧视性检测结果,确定第一歧视样本集;根据所述模型参数矩阵和所述第一歧视样本集,确定第二歧视样本集;将所述第一歧视样本集和所述第二歧视样本集合并,得到所述原始数据集对应的歧视样本集,以采用所述歧视样本集度量所述原始数据集的歧视性水平。2.根据权利要求1所述的方法,其特征在于,所述原始数据集中数据的数据类型包括表格型数据和文本型数据;若所述数据类型为表格型数据,对应的所述目标模型为前馈神经网络模型;若所述数据类型为文本型数据,对应的所述目标模型为双向长短期记忆模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述原始数据集,确定所述原始数据集中数据的数据类型,选取所述数据类型对应的目标模型,采用所述目标模型对所述原始数据集进行拟合,得到模型参数矩阵,包括:从所述原始数据集中随机抽取一条数据;判断所述数据的数据类型;若所述数据的数据类型为表格型数据,则采用所述前馈神经网络模型对所述原始数据集进行拟合;若所述数据的数据类型为文本型数据,则采用所述双向长短期记忆模型对所述原始数据集进行拟合;得到模型各层参数,将所有所述模型各层参数组合形成所述模型参数矩阵。4.根据权利要求1所述的方法,其特征在于,所述样本包括被保护属性变量;对所述样本进行歧视性检测,包括:逐个改变所述样本中被保护属性变量,得到新样本集,所述新样本集包括若干新样本,其中,每改变一个所述被保护属性变量形成一个新样本;将所述样本及所述新样本分别输入所述目标模型,分别得到第一模型输出结果和第二模型输出结果,所有所述第二模型输出结果构成第二模型输出结果集;若所述第二模型输出结果集中存在至少一个所述第二模型输出结果与所述第一模型输出结果不同,则所述样本通过歧视性检测,否则,所述样本未通过歧视性检测。5.根据权利要求4所述的方法,其特征在于,根据歧视性检测结果,确定第一歧视样本集,包括:如果所述歧视性检测结果为通过歧视性检测,则将通过歧视性检测对应的样本添加至第一歧视样本集;如果所述歧视性检测结果为未通过歧视性检测,则对未通过歧视性检测对应的样本进行全局扰动,得到扰动后样本,对所述扰动后样本重新进行歧视性检测,直到所述未通过歧视性检测对应的样本通过歧视性检测为止。6.根据权利要求5所述的方法,其特征在于,所述样本还包括非保护属性变量;所述对未通过歧视性检测对应的样本进行全局扰动,得到扰动后样本,包括:
根据所述第一模型输出结果和所述第二模型输出结果集,从所述新样本集选取与所述样本...
【专利技术属性】
技术研发人员:王秀利,马昊,
申请(专利权)人:中央财经大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。