当前位置: 首页 > 专利查询>清华大学专利>正文

基于异质性混杂数据的不变学习方法及装置制造方法及图纸

技术编号:29527814 阅读:10 留言:0更新日期:2021-08-03 15:14
本发明专利技术公开了一种基于异质性混杂数据的不变学习方法及装置,首先利用异质性的混杂训练数据,使用不稳定协变量与目标变量之间的关系进行异质性识别,将混杂的异质性数据划分为多环境,再利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习,并得到稳定协变量,进一步获得估计更加准确的不稳定协变量,更好地进行异质性识别来得到更好的环境划分,最终算法会给出最优的异质性环境划分、不同协变量的稳定性指数以及模型参数。通过协变量的稳定性指数来区分不同协变量的相对鲁棒性,对于模型输入可以得到更为准确的预测结果,在图像分类等多种领域有很高的应用价值。

【技术实现步骤摘要】
基于异质性混杂数据的不变学习方法及装置
本专利技术涉及机器学习
,特别涉及一种基于异质性混杂数据的不变学习方法及装置。
技术介绍
传统的机器学习方法基于经验风险最小化,当训练数据存在潜在的异质性、混杂因子或分布偏移时,此类方法通常表现出较差的泛化性能,故在真实环境下的预测性能不稳定。域泛化学习希望保证模型对于潜在的最坏情况进行优化,从而实现更加稳定的预测性能,其中不变学习为代表性方法,主要希望利用已有的多环境数据,从中找到跨环境不变的表征用来预测,从而实现跨域稳定的预测性能。在实际应用中,多环境数据往往是很难获得的,因数据收集过程中往往将多个数据来源的数据混杂在一起,使得得到的数据往往有着内在的异质性而缺失环境标签,这也使得当前的不变学习方法在实际场景中应用收到了局限。在真实的应用场景中,例如图像分类任务中,代表颜色、纹理、背景的协变量相较于代表目标物体的协变量在不同环境中变化会更加剧烈,表现为不同协变量鲁棒性的不同,当在实际场景下应用时,若应用于训练数据中少见的场景时,机器学习模型的分类表现会受到很大影响。图像分类中现有的不变学习方法主要依赖于已有的多环境数据,从中找出不变的表征,从而实现稳定的域泛化性能。由于现有不变学习方法依赖于已有的多环境数据,导致了其在实际应用中的局限性。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于异质性混杂数据的不变学习方法,该方法基于实际情境中数据为不同数据源的混杂以及不同协变量具有不同程度鲁棒性的观察,从混杂数据中识别出潜在的异质性,并进行更加有效的不变学习。本专利技术的另一个目的在于提出一种基于异质性混杂数据的不变学习装置。为达到上述目的,本专利技术一方面实施例提出了一种基于异质性混杂数据的不变学习方法,包括:S1,获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;S2,根据从协变量的空间到目标变量的映射建立模型;S3,将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;S4,利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;S5,对于所述划分好的环境,使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重;S6,利用当前学习得到的相对稳定性权重,重新返回步骤S4;S7,重复步骤S4至S6,采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;S8,获取测试样本,将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤S7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。为达到上述目的,本专利技术另一方面实施例提出了一种基于异质性混杂数据的不变学习装置,包括:获取模块,用于获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;建立模块,用于根据从协变量的空间到目标变量的映射建立模型;初始化模块,用于将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;划分模块,用于利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;学习模块,用于对于所述划分好的环境,使用不变学习方法来学习建立分类神经网络模型的当前参数以及协变量的相对稳定性权重;迭代模块,用于利用当前学习得到的相对稳定性权重,重新返回所述划分模块;训练模块,用于采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;输出模块,用于获取测试样本,将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤S7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。本专利技术实施例的基于异质性混杂数据的不变学习方法及装置,具有以下有益效果:1、本专利技术对于异质性的混杂数据进行异质性识别,划分产生异质多环境来进行不变学习,实现更加稳定的域泛化性能。2、本专利技术在不变学习的同时对协变量的相对稳定性进行估计,并据此在异质性识别中对不同协变量进行加权,来得到更加异质性的多环境以及相应的不变特征集合。3、使用本专利技术的优化线性回归/逻辑回归模型,可以显著提升模型对于稳定协变量参数估计的准确性,在复杂多变的测试环境中保持稳定的预测性能4、本专利技术可以提供很强的算法域泛化性能保证,在实际应用中,很可能出现数据中的关联关系随着时间、地域、用户类型的变化而不同,如果使用现有经验风险最小化方法优化的模型,在这种变化下会面临很大的性能损失。而本方法则可以有效的应对这样的变化,使得模型在数据分布存在差异的时候具有好的泛化性能。5、本专利技术提出的不变学习方法,对于利用异质性的混杂训练数据,使用不稳定协变量与目标变量之间的关系进行异质性识别,将混杂的异质性数据划分为多环境,之后利用学习到的多环境训练数据在模型优化的过程中加入不变性正则项进行不变学习,有效地降低了不变学习算法对于多环境数据的依赖。在图像分类的任务中,相较于之前的方法强烈依赖于多环境数据的获得与质量,本方法会对混杂图像数据中的异质性进行识别并划分环境,例如利用图片的背景、风格等不同划分出不同场景、风格下的环境,这样的环境可以帮助不变学习抵抗图像背景、风格等与图像标签存在的虚假关联,从而让模型更多的利用稳定的、可解释的特征来进行预测,从而可以实现更强的鲁棒性与域泛化性能的稳定性。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于异质性混杂数据的不变学习方法流程图;图2为根据本专利技术一个实施例的基于异质性混杂数据的不变学习装置结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于异质性混杂数据的不变学习方法及装置。首先将参照附图描述根据本专利技术实施例提出的基于异质性混杂数据的不变学习方法。图1为根据本专利技术一个实施例的基于异质性混杂数据的不变学习方法流程图。本文档来自技高网...

【技术保护点】
1.一种基于异质性混杂数据的不变学习方法,其特征在于,包括以下步骤:/nS1,获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;/nS2,根据从协变量的空间到目标变量的映射建立模型;/nS3,将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;/nS4,利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;/nS5,对于所述划分好的环境,使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重;/nS6,利用当前学习得到的相对稳定性权重,重新返回步骤S4;/nS7,重复步骤S4至S6,采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;/nS8,获取测试样本,将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤S7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。/n...

【技术特征摘要】
1.一种基于异质性混杂数据的不变学习方法,其特征在于,包括以下步骤:
S1,获取异质性混杂数据,所述异质性混杂数据包括协变量集合和目标变量集合;
S2,根据从协变量的空间到目标变量的映射建立模型;
S3,将所述协变量集合中协变量的每一维权重构成的权重向量初始化为全1的向量,并将权重向量作为协变量当前权重向量;
S4,利用协变量当前权重向量,以及预先定义好的划分环境数目,使用与所述划分环境数目相同的模型对全体数据进行聚类,得到所述划分环境数目个划分好的环境;
S5,对于所述划分好的环境,使用不变学习方法来学习步骤S2建立的模型的当前参数以及协变量的相对稳定性权重;
S6,利用当前学习得到的相对稳定性权重,重新返回步骤S4;
S7,重复步骤S4至S6,采用梯度下降训练模型,直到模型收敛训练结束,将当前模型的当前参数作为最终的模型参数,当前协变量作为最终的协变量权重向量;
S8,获取测试样本,将所述测试样本中协变量赋予步骤S7得到的最终的协变量权重向量,得到所述测试样本修正后的协变量,将所述修正后的协变量输入步骤S7训练完毕的模型,模型输出为所述测试样本的目标变量预测结果。


2.根据权利要求1所述的方法,其特征在于,所述获取异质性混杂数据,包括:
选取来自于不同数据源e∈ε的异质性训练数据D={De}e∈ε,其中ε为环境的集合,De=(Xe,Ye),Xe为来自环境e的所有训练样本的协变量组成的该环境协变量矩阵,Ye为来自环境e的所有训练样本的目标变量组成的该环境的目标变量数组;
将所有环境的协变量数组组成协变量集合,将所有环境的目标变量数组组成目标变量集合。


3.根据权利要求1所述的方法,其特征在于,所述S4进一步包括:
S41,初始时将全部数据随机划分为K个环境,K为所述环境数目;
S42,对于划分好的K个环境,分别训练K个模型来对数据进行拟合,得到K个模型参数;
S43,对于每个数据点,为其分配新的类别标签,之后重复步骤S42。

【专利技术属性】
技术研发人员:崔鹏刘家硕
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1