数据集偏移检测方法、装置、系统及计算机存储介质制造方法及图纸

技术编号:32825338 阅读:11 留言:0更新日期:2022-03-26 20:26
本发明专利技术公开一种数据集偏移检测方法、装置、系统及计算机存储介质。其中,该方法包括:通过数据集仓库获取第一数据集和第二数据集;计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。本发明专利技术中,通过该方法,可以判断两个数据集的哪些特征存在分布偏移,当不存在分布偏移时,再直接使用两个数据集,解决了现有技术中不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,所造成的测试集预测时,准确率下降以及给人工智能模型效果带来安全隐患的问题,提高了预测的准确率。的准确率。的准确率。

【技术实现步骤摘要】
数据集偏移检测方法、装置、系统及计算机存储介质


[0001]本专利技术涉及人工智能安全
,具体而言,涉及一种数据集偏移检测方法、装置、系统及计算机存储介质。

技术介绍

[0002]在机器学习任务中,往往会遇到这种情况:模型在训练集上准确率较高,但是测试集进行预测时,准确率明显下降。除了模型在训练集上过拟合的可能外,还有可能是训练集和测试集的分布不一致导致的。训练集和测试集分布不一致也被称作数据集偏移。引起数据集偏移的主要原因包括:(1)样本选择偏差:训练集是通过有偏方法得到的,例如非均匀选择,导致训练集无法很好表征的真实样本空间。(2)环境不平稳:当训练集数据的采集环境跟测试集不一致时会出现该问题,一般是由于时间或空间的改变引起的。要构建性能良好的机器学习模型,必须对训练集、验证集、测试集的特征、类别分布进行检测和评估。
[0003]现有技术中,在开展机器学习任务时,不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,这将给人工智能模型效果带来安全隐患,造成测试集预测时,准确率下降。
[0004]针对现有技术中不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,所造成的测试集预测时,准确率下降以及给人工智能模型效果带来安全隐患的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例中提供一种数据集偏移检测方法、装置、系统及计算机存储介质,以解决现有技术中不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,所造成的测试集预测时,准确率下降以及给人工智能模型效果带来安全隐患的问题。
[0006]为达到上述目的,一方面,本专利技术提供了一种数据集偏移检测方法,该方法包括:通过数据集仓库获取第一数据集和第二数据集;计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。
[0007]可选的,所述计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值包括:判断第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串或数值;根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组;根据所述第一概率数组和所述第二概率数组计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值。
[0008]可选的,所述计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值的计算公式为:
[0009][0010]其中,所述JS(P||Q)为当前JS散度值,所述P(x)为第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,所述Q(x)为第二数据集中当前相同特征的全部数据特征值对应的第二概率数组,所述为P(x)对的相对熵,所述为Q(x)对的相对熵。
[0011]可选的,所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组包括:当判定第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串时,计算第一数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第一概率数组;计算第二数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第二概率数组。
[0012]可选的,所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组还包括:
[0013]当判定第一数据集和第二数据集中当前相同特征的全部数据特征值为数值时,将第一数据集中所述全部数据特征值进行分桶,计算每个分桶中数据的个数占第一数据集和第二数据集中全部数据的个数的比例并生成第一概率数组;
[0014]将第二数据集中所述全部数据特征值进行分桶,计算每个分桶中数据的个数占第一数据集和第二数据集中全部数据的个数的比例并生成第二概率数组。
[0015]可选的,所述将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移包括:当判定当前JS散度值大于预设阈值时,则判定所述当前JS散度值对应的特征存在分布偏移;当判定当前JS散度值小于或等于预设阈值时,则判定所述当前JS散度值对应的特征不存在分布偏移。
[0016]另一方面,本专利技术提供了一种数据集偏移检测装置,该装置包括:获取单元,用于通过数据集仓库获取第一数据集和第二数据集;计算单元,用于计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;判断单元,用于将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。
[0017]可选的,所述计算单元包括:判断子单元,用于判断第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串或数值;第一计算子单元,用于根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组;第二计算子单元,用于根据所述第一概率数组和所述第二概率数组计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值。
[0018]另一方面,本专利技术还提供了一种数据集偏移检测系统,包括上述的数据集偏移检测装置。
[0019]另一方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所
述程序被处理器执行时实现上述的数据集偏移检测方法。
[0020]本专利技术的有益效果:
[0021]本专利技术提供了一种数据集偏移检测方法,该方法包括:通过数据集仓库获取第一数据集和第二数据集;计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。通过该方法,可以判断两个数据集的哪些特征存在分布偏移,当不存在分布偏移时,再直接使用两个数据集,解决了现有技术中不判断训练集和测试集的分布是否一致,而是直接使用训练集训练模型和测试集通过训练的模型进行预测,所造成的测试集预测时,准确率下降以及给人工智能模型效果带来安全隐患的问题,提高了预测的准确率。
附图说明
[0022]图1是本专利技术实施例提供的一种数据集偏移检测方法的流程图;
[0023]图2是本专利技术实施例提供的计算JS散度值的流程图;
[0024]图3是本专利技术实施例提供的判断是否存在分布偏移的流程图;
[0025]图4是本专利技术实施例提供的一种数据集偏移检测装置的结构示意图;
[0026]图5是本专利技术实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集偏移检测方法,其特征在于,包括:通过数据集仓库获取第一数据集和第二数据集;计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值;将每个所述JS散度值分别与预设阈值作比较,根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。2.根据权利要求1所述的方法,其特征在于,所述计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值包括:判断第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串或数值;根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组;根据所述第一概率数组和所述第二概率数组计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值。3.根据权利要求2所述的方法,其特征在于,所述计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值的计算公式为:其中,所述JS(P||Q)为当前JS散度值,所述P(x)为第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,所述Q(x)为第二数据集中当前相同特征的全部数据特征值对应的第二概率数组,所述为P(x)对的相对熵,所述为Q(x)对的相对熵。4.根据权利要求2所述的方法,其特征在于,所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组包括:当判定第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串时,计算第一数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第一概率数组;计算第二数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第二概率数组。5.根据权利要求4所述的方法,其特征在于,所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组,以及第二数据集中当前相同特征...

【专利技术属性】
技术研发人员:马影魏国富周晓勇夏玉明刘胜徐明王启凡梁淑云余贤喆陶景龙殷钱安
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1