一种基于局部搜索的去偏方法、电子设备、介质技术

技术编号：36894706 阅读：6 留言：0更新日期：2023-03-15 22:21

本发明专利技术公开了一种基于局部搜索的去偏方法、电子设备、介质，所述方法包括：获取原始数据，并对所述原始数据中的类别属性进行标记，得到标记后的数据集，记作数据集X；在步骤(1)选取的数据集X中进行基于局部搜索的聚类分析，使用P表示聚类的点集，对于大小为n的点集P中的点x，令r(x)为半径，使得以x为中心的半径为r(x)的球内至少具有来自P的n/k个点。本发明专利技术方法使得数据集中的不同簇群的样本点尽可能相异，即类内距离尽可能小，类间距离尽可能大。每个簇群的敏感属性的分布要尽可能均匀，提高数据集的公平性。数据集的公平性。数据集的公平性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于局部搜索的去偏方法、电子设备、介质

[0001]本专利技术属于人工智能领域，具体涉及一种基于局部搜索的去偏方法、电子设备、介质。

技术介绍

[0002]人类科技的进步伴随着人工智能的蓬勃发展，以机器学习为代表的人工智能技术越来越多的参与到人们工作中的决策活动和社会治理中。机器学习凭借其自身强大的数据处理能力，帮助人们解决了在工作上遇到的各种复杂的分类预测问题，在这些典型场景中的应用减轻了从业者和社会管理者的工作强度，并且带来了正面的经济效益和社会效益。因此，机器学习也在逐步渗透进人们的日常生活活动中，通过利用自身强大能力帮助人们从繁重且重复单一的活动中解脱出来。
[0003]由于机器学习及其相关技术越来越多应用于决策任务，例如信贷发放、累犯预测等，帮助从业者和决策者提高工作效率以及促进经济发展带来更积极的社会影响。然而最近的研究表明，由于许多现有的方法在分类预测的时候存在不公平问题，这种不公平问题指的是预测分类结果会因为敏感属性的不同而导致结果不同，特别是涉及性别等的问题，这些不公平性表现在比如招聘时候的简历筛选，某些职位的简历筛选结果中可能男性比例远高于女性。由此也可见机器学习算法做出带有偏见的决定会对社会造成诸多负面影响，并且随着人工智能广泛渗透至人们生产生活的方方面面，提高机器学习算法的公平性显得尤为重要。
[0004]人工智能技术提供的决策建议存在不公平性导致偏见甚至造成歧视的主要原因就是机器学习所使用的模型和算法在预测分类的过程中并没有考虑公平性问题，因此迫切需要减轻这些存在于模型和...

【技术保护点】

【技术特征摘要】
1.一种基于局部搜索的去偏方法，其特征在于，所述方法包括以下步骤：(1)获取原始数据，并对所述原始数据中的类别属性进行标记，得到标记后的数据集，记作数据集X；(2)在步骤(1)选取的数据集X中进行基于局部搜索的聚类分析，使用P表示聚类的点集，对于大小为n的点集P中的点x，令r(x)为半径，使得以x为中心的半径为r(x)的球内至少具有来自P的n/k个点；使得数据集X中的不同簇群的样本点尽可能相异，即类内距离尽可能小，类间距离尽可能大；每个簇群的敏感属性的分布要尽可能均匀，以提高数据集X的公平性，完成基于局部搜索的去偏。2.根据权利要求1所述的一种基于局部搜索的偏方法，其特征在于，所述原始数据为带有敏感属性的文本数据集。3.根据权利要求1所述的基于局部搜索的去偏方法，其特征在于，所述步骤(2)具体包括以下子步骤：(2.1)在步骤(1)选取的数据集X中找到一组关于临界球B的k个可行的中心：使用P表示聚类的点集，参数k表示允许聚类的中心数；对于每个x∈P，将B(x,r)＝{y∈P:d(x,y)≤r}表示为一个半径为r，围绕x的球中包含的点集；将每个聚类中心数k所对应的最小半径记为一个c，也即c＝argmin
x∈Z
r
k
(x)，遍历每一个c，将样本划入相应的中心簇：寻找d(x,c)中大于6α
·
r
k
(x)的点，其中，α为高斯混合系数；(2.2)构造初始中心集S'：令选取在点集P中但是不在初始中心集S'中的点，并且将这些点里面到中心距离最大的点记为集合z，即z＝argmax
x∈P\S
′
d(x,S
′
)，再将初始中心集S'与集合z求并集，更新得到可行中心集S'，也即S'＝S'∪{z}；(2.3)对步骤(2.2)得到的可行中心集...

【专利技术属性】
技术研发人员：陈晋音，陈一鸣，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人