基于异质性混杂数据的不变学习方法及装置制造方法及图纸

技术编号：29527814 阅读：19 留言：0更新日期：2021-08-03 15:14

本发明专利技术公开了一种基于异质性混杂数据的不变学习方法及装置，首先利用异质性的混杂训练数据，使用不稳定协变量与目标变量之间的关系进行异质性识别，将混杂的异质性数据划分为多环境，再利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习，并得到稳定协变量，进一步获得估计更加准确的不稳定协变量，更好地进行异质性识别来得到更好的环境划分，最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。通过协变量的稳定性指数来区分不同协变量的相对鲁棒性，对于模型输入可以得到更为准确的预测结果，在图像分类等多种领域有很高的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于异质性混杂数据的不变学习方法及装置
本专利技术涉及机器学习
，特别涉及一种基于异质性混杂数据的不变学习方法及装置。
技术介绍
传统的机器学习方法基于经验风险最小化，当训练数据存在潜在的异质性、混杂因子或分布偏移时，此类方法通常表现出较差的泛化性能，故在真实环境下的预测性能不稳定。域泛化学习希望保证模型对于潜在的最坏情况进行优化，从而实现更加稳定的预测性能，其中不变学习为代表性方法，主要希望利用已有的多环境数据，从中找到跨环境不变的表征用来预测，从而实现跨域稳定的预测性能。在实际应用中，多环境数据往往是很难获得的，因数据收集过程中往往将多个数据来源的数据混杂在一起，使得得到的数据往往有着内在的异质性而缺失环境标签，这也使得当前的不变学习方法在实际场景中应用收到了局限。在真实的应用场景中，例如图像分类任务中，代表颜色、纹理、背景的协变量相较于代表目标物体的协变量在不同环境中变化会更加剧烈，表现为不同协变量鲁棒性的不同，当在实际场景下应用时，若应用于训练数据中少见的场景时，机器学习模型的分类表现会受到很大影响。图像分类中现有的不变学习方法主要依赖于已有的多环境数据，从中找出不变的表征，从而实现稳定的域泛化性能。由于现有不变学习方法依赖于已有的多环境数据，导致了其在实际应用中的局限性。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的一个目的在于提出一种基于异质性混杂数据的不变学习方法，该方法基于实际情境中数据为不同数据源的混杂以及不同...

【技术保护点】
1.一种基于异质性混杂数据的不变学习方法，其特征在于，包括以下步骤：/nS1，获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；/nS2，根据从协变量的空间到目标变量的映射建立模型；/nS3，将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；/nS4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；/nS5，对于所述划分好的环境，使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重；/nS6，利用当前学习得到的相对稳定性权重，重新返回步骤S4；/nS7，重复步骤S4至S6，采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；/nS8，获取测试样本，将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤S7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。/n...

【技术特征摘要】
1.一种基于异质性混杂数据的不变学习方法，其特征在于，包括以下步骤：
S1，获取异质性混杂数据，所述异质性混杂数据包括协变量集合和目标变量集合；
S2，根据从协变量的空间到目标变量的映射建立模型；
S3，将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量，并将权重向量作为协变量当前权重向量；
S4，利用协变量当前权重向量，以及预先定义好的划分环境数目，使用与所述划分环境数目相同的模型对全体数据进行聚类，得到所述划分环境数目个划分好的环境；
S5，对于所述划分好的环境，使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重；
S6，利用当前学习得到的相对稳定性权重，重新返回步骤S4；
S7，重复步骤S4至S6，采用梯度下降训练模型，直到模型收敛训练结束，将当前模型的当前参数作为最终的模型参数，当前协变量作为最终的协变量权重向量；
S8，获取测试样本，将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量，得到所述测试样本修正后的协变量，将所述修正后的协变量输入步骤S7训练完毕的模型，模型输出为所述测试样本的目标变量预测结果。

2.根据权利要求1所述的方法，其特征在于，所述获取异质性混杂数据，包括：
选取来自于不同数据源e∈ε的异质性训练数据D＝{De}e∈ε，其中ε为环境的集合，De＝(Xe，Ye)，Xe为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵，Ye为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组；
将所有环境的协变量数组组成协变量集合，将所有环境的目标变量数组组成目标变量集合。

3.根据权利要求1所述的方法，其特征在于，所述S4进一步包括：
S41，初始时将全部数据随机划分为K个环境，K为所述环境数目；
S42，对于划分好的K个环境，分别训练K个模型来对数据进行拟合，得到K个模型参数；
S43，对于每个数据点，为其分配新的类别标签，之后重复步骤S42。

【专利技术属性】
技术研发人员：崔鹏，刘家硕，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人