一种基于局部搜索的去偏方法、电子设备、介质技术

技术编号:36894706 阅读:6 留言:0更新日期:2023-03-15 22:21
本发明专利技术公开了一种基于局部搜索的去偏方法、电子设备、介质,所述方法包括:获取原始数据,并对所述原始数据中的类别属性进行标记,得到标记后的数据集,记作数据集X;在步骤(1)选取的数据集X中进行基于局部搜索的聚类分析,使用P表示聚类的点集,对于大小为n的点集P中的点x,令r(x)为半径,使得以x为中心的半径为r(x)的球内至少具有来自P的n/k个点。本发明专利技术方法使得数据集中的不同簇群的样本点尽可能相异,即类内距离尽可能小,类间距离尽可能大。每个簇群的敏感属性的分布要尽可能均匀,提高数据集的公平性。数据集的公平性。数据集的公平性。

【技术实现步骤摘要】
一种基于局部搜索的去偏方法、电子设备、介质


[0001]本专利技术属于人工智能领域,具体涉及一种基于局部搜索的去偏方法、电子设备、介质。

技术介绍

[0002]人类科技的进步伴随着人工智能的蓬勃发展,以机器学习为代表的人工智能技术越来越多的参与到人们工作中的决策活动和社会治理中。机器学习凭借其自身强大的数据处理能力,帮助人们解决了在工作上遇到的各种复杂的分类预测问题,在这些典型场景中的应用减轻了从业者和社会管理者的工作强度,并且带来了正面的经济效益和社会效益。因此,机器学习也在逐步渗透进人们的日常生活活动中,通过利用自身强大能力帮助人们从繁重且重复单一的活动中解脱出来。
[0003]由于机器学习及其相关技术越来越多应用于决策任务,例如信贷发放、累犯预测等,帮助从业者和决策者提高工作效率以及促进经济发展带来更积极的社会影响。然而最近的研究表明,由于许多现有的方法在分类预测的时候存在不公平问题,这种不公平问题指的是预测分类结果会因为敏感属性的不同而导致结果不同,特别是涉及性别等的问题,这些不公平性表现在比如招聘时候的简历筛选,某些职位的简历筛选结果中可能男性比例远高于女性。由此也可见机器学习算法做出带有偏见的决定会对社会造成诸多负面影响,并且随着人工智能广泛渗透至人们生产生活的方方面面,提高机器学习算法的公平性显得尤为重要。
[0004]人工智能技术提供的决策建议存在不公平性导致偏见甚至造成歧视的主要原因就是机器学习所使用的模型和算法在预测分类的过程中并没有考虑公平性问题,因此迫切需要减轻这些存在于模型和算法中的偏见和不公平性,公平性往往与效用最大化的优化目标不一致,因此解决方法大多集中于在这两者之间找到一个平衡点,以实现较好的公平性和较大的效用。目前针对模型和算法中的偏见消除工作主要集中在使用对抗性训练技术学习公平表征,学习表征的作用是过滤掉与敏感属性相关的信息,这一系列的工作主要在监督学习上开展,其中效用通常以目标任务的准确性作为特征。在无监督学习中,特别是聚类分析,也有研究通过嵌入公平约束条件对算法进行改进来达到提高公平性的目的。现有的一些方法通过改进算法或者改进模型来达到提高公平性的目的,但是,现有的方法存在的明显的不足包括对大型数据集的支持能力教弱、为了提高公平性会较明显损失效用。
[0005]鉴于使用人工智能技术进行分类决策的时候容易做出带有偏见的决策结果的事实以及现有的减轻偏见的方法的局限性,研究一种基于局部搜索的去偏方法,助力人工智能技术在人们生产生活中的应用具有极其重要的理论意义以及实践意义。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供了一种基于局部搜索的去偏方法、电子设备、介质。
[0007]本专利技术的目的是通过以下技术方案来实现的:本专利技术实施例的第一方面提供了一种基于局部搜索的去偏方法,所述方法包括以下步骤:
[0008](1)获取原始数据,并对所述原始数据中的类别属性进行标记,得到标记后的数据集,记作数据集X;
[0009](2)在步骤(1)选取的数据集X中进行基于局部搜索的聚类分析,使用P表示聚类的点集,对于大小为n的点集P中的点x,令r(x)为半径,使得以x为中心的半径为r(x)的球内至少具有来自P的n/k个点;使得数据集X中的不同簇群的样本点尽可能相异,即类内距离尽可能小,类间距离尽可能大;每个簇群的敏感属性的分布要尽可能均匀,以提高数据集X的公平性,完成基于局部搜索的去偏。
[0010]本专利技术实施例的第二方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于局部搜索的偏方法方法。
[0011]本专利技术实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于局部搜索的偏方法方法。
[0012]本专利技术的有益效果是:基于个体公平角度,本专利技术提出了一种基于局部搜索的去偏方法,通过一种基于局部搜索的聚类分析方法实现,对于大小为n的点集P中的点x,令r(x)为半径,使得以x为中心的半径为r(x)的球至少具有来自P的n/k个点,也即如果从P中选择k个随机点作为中心,则每个点x∈P都在半径r(x)内有一个中心,改进了现有的聚类方法,本专利技术方法使得数据集中的不同簇群的样本点尽可能相异,即类内距离尽可能小,类间距离尽可能大。每个簇群的敏感属性的分布要尽可能均匀,提高数据集的公平性。为点x∈P提供了个体公平保证,从而达到偏见消除的目的,并且提高机器学习模型的决策公平性。
附图说明
[0013]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为一种基于局部搜索的去偏方法的流程图。
具体实施方式
[0015]为了使本专利技术的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本专利技术进一步的详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均在本专利技术保护范围。
[0016]下面结合附图,对本专利技术进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0017]在机器学习中,当数据集中包含敏感属性集(比如性别、地域等)时,不同的场景下相同算法的预测结果可能是不同的。公平性学习是在保护或隐藏某些敏感属性并同时保持原有的学习效用。
[0018]无监督学习中的聚类分析算法是把样本点聚成不同的簇群,使得每个簇群的样本点尽可能地相似,不同簇群的样本点尽可能相异,即类内距离尽可能小,类间距离尽可能大。公平性聚类分析中,公平性是指每个簇群的敏感属性的分布要尽可能均匀,比如一个簇群中样本的男女比例尽可能均衡,这样其公平性较好;反之,如果一个簇群中分布的样本全是男性,那么这个簇群的敏感属性分布就不平衡,这样其公平性较差。
[0019]如图1所示,本专利技术提供了一种基于局部搜索的去偏方法,所述方法具体包括以下步骤:
[0020](1)获取原始数据,并对所述原始数据中的类别属性进行标记,得到标记后的数据集,记作数据集X;所述原始数据为带有敏感属性的文本数据集;
[0021]本实施例中选取Adult数据集作为原始数据集,在Adult数据集中具有14个样本属性,对Adult数据集中的类别属性进行标记,标记任务属性和敏感属性;本次将性别属性标记为敏感属性,将性别属性中的男性用数字1代替,女性用0代替;将年收入分类标记为任务属性,将年收入分类中的超过50K用数字0代替,不超过50K用数字1代替;得到标记后的数据集,记作数据集X;
[0022]不进行基于局部搜索的去偏,直接将数据集X的数据进行聚类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部搜索的去偏方法,其特征在于,所述方法包括以下步骤:(1)获取原始数据,并对所述原始数据中的类别属性进行标记,得到标记后的数据集,记作数据集X;(2)在步骤(1)选取的数据集X中进行基于局部搜索的聚类分析,使用P表示聚类的点集,对于大小为n的点集P中的点x,令r(x)为半径,使得以x为中心的半径为r(x)的球内至少具有来自P的n/k个点;使得数据集X中的不同簇群的样本点尽可能相异,即类内距离尽可能小,类间距离尽可能大;每个簇群的敏感属性的分布要尽可能均匀,以提高数据集X的公平性,完成基于局部搜索的去偏。2.根据权利要求1所述的一种基于局部搜索的偏方法,其特征在于,所述原始数据为带有敏感属性的文本数据集。3.根据权利要求1所述的基于局部搜索的去偏方法,其特征在于,所述步骤(2)具体包括以下子步骤:(2.1)在步骤(1)选取的数据集X中找到一组关于临界球B的k个可行的中心:使用P表示聚类的点集,参数k表示允许聚类的中心数;对于每个x∈P,将B(x,r)={y∈P:d(x,y)≤r}表示为一个半径为r,围绕x的球中包含的点集;将每个聚类中心数k所对应的最小半径记为一个c,也即c=argmin
x∈Z
r
k
(x),遍历每一个c,将样本划入相应的中心簇:寻找d(x,c)中大于6α
·
r
k
(x)的点,其中,α为高斯混合系数;(2.2)构造初始中心集S':令选取在点集P中但是不在初始中心集S'中的点,并且将这些点里面到中心距离最大的点记为集合z,即z=argmax
x∈P\S

d(x,S

),再将初始中心集S'与集合z求并集,更新得到可行中心集S',也即S'=S'∪{z};(2.3)对步骤(2.2)得到的可行中心集...

【专利技术属性】
技术研发人员:陈晋音陈一鸣
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1