数据集偏移检测方法、装置、系统及计算机存储介质制造方法及图纸

技术编号：32825338 阅读：11 留言：0更新日期：2022-03-26 20:26

本发明专利技术公开一种数据集偏移检测方法、装置、系统及计算机存储介质。其中，该方法包括：通过数据集仓库获取第一数据集和第二数据集；计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值；将每个所述JS散度值分别与预设阈值作比较，根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。本发明专利技术中，通过该方法，可以判断两个数据集的哪些特征存在分布偏移，当不存在分布偏移时，再直接使用两个数据集，解决了现有技术中不判断训练集和测试集的分布是否一致，而是直接使用训练集训练模型和测试集通过训练的模型进行预测，所造成的测试集预测时，准确率下降以及给人工智能模型效果带来安全隐患的问题，提高了预测的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
数据集偏移检测方法、装置、系统及计算机存储介质

[0001]本专利技术涉及人工智能安全
，具体而言，涉及一种数据集偏移检测方法、装置、系统及计算机存储介质。

技术介绍

[0002]在机器学习任务中，往往会遇到这种情况：模型在训练集上准确率较高，但是测试集进行预测时，准确率明显下降。除了模型在训练集上过拟合的可能外，还有可能是训练集和测试集的分布不一致导致的。训练集和测试集分布不一致也被称作数据集偏移。引起数据集偏移的主要原因包括：(1)样本选择偏差:训练集是通过有偏方法得到的，例如非均匀选择，导致训练集无法很好表征的真实样本空间。(2)环境不平稳：当训练集数据的采集环境跟测试集不一致时会出现该问题，一般是由于时间或空间的改变引起的。要构建性能良好的机器学习模型，必须对训练集、验证集、测试集的特征、类别分布进行检测和评估。
[0003]现有技术中，在开展机器学习任务时，不判断训练集和测试集的分布是否一致，而是直接使用训练集训练模型和测试集通过训练的模型进行预测，这将给人工智能模型效果带来安全隐患，造成测试集预测时，准确率下降。
[0004]针对现有技术中不判断训练集和测试集的分布是否一致，而是直接使用训练集训练模型和测试集通过训练的模型进行预测，所造成的测试集预测时，准确率下降以及给人工智能模型效果带来安全隐患的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例中提供一种数据集偏移检测方法、装置、系统及计算机存储介质，以解决现有技术中不判断训练集和测试集...

【技术保护点】

【技术特征摘要】
1.一种数据集偏移检测方法，其特征在于，包括：通过数据集仓库获取第一数据集和第二数据集；计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值；将每个所述JS散度值分别与预设阈值作比较，根据比较结果判断每个所述JS散度值对应的特征是否存在分布偏移。2.根据权利要求1所述的方法，其特征在于，所述计算第一数据集和第二数据集中全部相同特征一一对应的JS散度值包括：判断第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串或数值；根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组，以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组；根据所述第一概率数组和所述第二概率数组计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值。3.根据权利要求2所述的方法，其特征在于，所述计算第一数据集和第二数据集中当前相同特征对应的当前JS散度值的计算公式为：其中，所述JS(P||Q)为当前JS散度值，所述P(x)为第一数据集中当前相同特征的全部数据特征值对应的第一概率数组，所述Q(x)为第二数据集中当前相同特征的全部数据特征值对应的第二概率数组，所述为P(x)对的相对熵，所述为Q(x)对的相对熵。4.根据权利要求2所述的方法，其特征在于，所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组，以及第二数据集中当前相同特征的全部数据特征值对应的第二概率数组包括：当判定第一数据集和第二数据集中当前相同特征的全部数据特征值为字符串时，计算第一数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第一概率数组；计算第二数据集中所述全部数据特征值的每类所述字符串的个数占第一数据集和第二数据集中全部所述字符串的个数的比例并生成第二概率数组。5.根据权利要求4所述的方法，其特征在于，所述根据判断结果分别计算第一数据集中当前相同特征的全部数据特征值对应的第一概率数组，以及第二数据集中当前相同特征...

【专利技术属性】
技术研发人员：马影，魏国富，周晓勇，夏玉明，刘胜，徐明，王启凡，梁淑云，余贤喆，陶景龙，殷钱安，
申请(专利权)人：上海观安信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人