一种应用于异分布数据环境的主动学习方法技术

技术编号:16380392 阅读:30 留言:0更新日期:2017-10-15 15:11
本发明专利技术提供了一种应用于异分布数据环境的主动学习算法。包括具体步骤:在训练数据上训练分类模型;使用分类模型预测未标注样本所属类别;若样本属于该类别,使用训练数据的密度函数计算样本信息含量,若样本不属于该类别,使用未标注数据上分类模型的期望风险改变大小计算样本信息含量;对未标注样本的信息含量进行排序;选取对分类模型训练最有利的样本,添加标注信息后加入训练数据集;上述步骤迭代进行,直至学习算法的标注代价或分类模型精度达到预设标准为止。本发明专利技术利用分类模型对未标注样本所属类别的预测结果,分别选择不同标准估计待选样本的信息含量,保证了异分布数据环境下主动学习能够以较低标注代价获得高泛化能力的分类模型。

An active learning method applied to heterogeneous distributed data environment

The present invention provides an active learning algorithm for heterogeneous data environments. Including the steps of: training classification model on the training data; using the classification model to predict the unlabeled sample category; if the sample belongs to the category, calculating the information content of the sample using the density function of the training data, if the sample does not belong to this category, the use of unlabeled data on the classification model of expected risk change the information content of the sample size calculation; to sort the information content of unlabeled samples; the selection of the most favorable classification model training samples, add training data set after the annotation information; step iterative learning algorithm, until the labeling cost or classification accuracy reaches the preset standards so far. The invention uses the prediction results classification model category of unlabeled samples, different estimates of the information content to be selected standard samples, the classification model can obtain high generalization ability to lower the labeling cost of active learning under the environment of different data distribution.

【技术实现步骤摘要】
一种应用于异分布数据环境的主动学习方法
本专利技术涉及的是一种主动学习算法。
技术介绍
目前,公知的基于监督学习的分类模型训练过程需要预先收集一组标注数据,利用该标注数据作为训练集学习分类模型。在这一学习框架下,训练数据的数量及质量直接决定了所获得分类模型的性能。因而,为了获取一个高泛化能力的分类模型,往往需要以较高的代价获取训练所需的标注数据。当标注数据获取代价大且获取难度高,但是无标注数据廉价易得时,主动学习通过选择部分未标注样本添加标记的方法来获取训练所需的标注数据,达到了降低获取高泛化能力分类模型所需标注代价的目的,并在各个应用领域取得了显著效果,获得了广泛重视。主动学习的基本过程是:首先,标注少部分数据并训练初始分类模型;利用该分类模型对未标注数据进行预测,根据该预测结果选取最有利于当前分类模型训练的样本,添加标注信息后加入训练集;在更新后的训练集上重新训练分类模型;上述过程迭代进行,直至分类模型达到既定的精度要求或者标注代价达到既定标准为止。传统的主动学习方法面临的主要挑战之一是数据的同分布假设。为了保证所学习的分类模型在测试分布上的无偏性,假定训练数据与测试数据来自相同的实验环境,其分布具有相同的统计特征。然而,随着计算能力和存储技术的发展,学习任务面临的数据来源也越来越广泛,其数量和种类也日趋多样化。同时,数据收集环境的多变性也很难保证这些数据具有相同的分布特征,例如:在视频监控任务中,受到室内外环境的影响,实验室条件下获取的训练数据与真实环境中测试数据很难保持完全一致;在垃圾邮件过滤任务中,分类器往往使用预先收集的语料库进行训练,却应用于在线实时检测任务;在遥感图像检测任务中,监测系统可能被用于境外区域,该目标区域的植被环境和光照条件都会对测试数据产生影响,导致与训练数据不同的测试分布。因此,这一假设条件在现实任务中过于严格以至于难以得到满足,进而影响了主动学习方法的应用效果。
技术实现思路
本专利技术的目的在于提供一种在训练数据和测试数据分布不同条件下,以最小的标注代价学习一个高泛化能力的分类模型的应用于异分布数据环境的主动学习方法。本专利技术的目的是这样实现的:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:其中,w表示分类模型的参数向量,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,其计算过程为:m为样本个数;当样本x不属于当前学习类别时,使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准,其估计过程为:其中,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,其计算过程为:步骤四:对所有未标注样本的信息含量按照升序排序,选择对分类模型训练最有帮助的样本x*;步骤五:将所选择的样本x*添加标注信息,并将所选样本及其对应的正确标注信息{x*,y*}添加到训练数据集中,同时,将未标注样本x*从未标注样本集中移除;步骤六:重复进行步骤一至步骤五,直至分类模型的精度或者所选样本的标注代价达到既定标准为止。本专利技术还可以包括:所述的未标注数据集上分类模型的期望风险RU(w)的估计过程为:其中:μy,σy分别表示分类模型在未标注数据集上输出值的均值和方差,使用plug-in估计过程迭代获得:其中:这里表示分类模型对未标注样本xi的计算输出值。本专利技术提出了一种异分布数据环境下的主动学习算法。通过设计样本选择策略,克服数据分布不同对分类模型训练的影响,保证主动学习的实际应用效果。本专利技术的目的是在训练数据和测试数据分布不同条件下,以最小的标注代价学习一个高泛化能力的分类模型。本专利技术的有益效果:本专利技术利用分类模型对未标注样本所属类别的预测结果作为先验知识,分别选择不同函数计算样本包含的信息含量。利用了训练数据的密度信息和未标注数据对分类模型训练的影响程度,克服了异分布条件对样本选择过程的干扰,从而在标注代价最小的条件下学习一个高泛化能力的分类模型。附图说明图1为本专利技术的流程图;图2为本专利技术与其它主动学习方法在MIRFLICKR数据集上分别训练L1规则化分类模型所得平均精度比较结果;图3为本专利技术与其它主动学习方法在MIRFLICKR数据集上分别训练L1规则化分类模型所所返回前25幅图像的准确度比较结果;图4为本专利技术与其它主动学习方法在MIRFLICKR数据集上分别训练L2规则化分类模型所得平均精度比较结果;图5为本专利技术与其它主动学习方法在MIRFLICKR数据集上分别训练L2规则化分类模型所所返回前25幅图像的准确度比较结果。具体实施方式为了实现上述目的,本专利技术采用的技术方案主要包括:假设在主动学习第t轮迭代中,所观察到的训练数据集为未标注数据集为步骤一,在观察到的训练数据集D上训练一个参数为w的分类模型。步骤二,使用所学习的分类模型对未标注数据集中每个样本x∈U所属类别y进行预测。步骤三,当分类模型预测该未标注样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)计算该样本的信息含量,计算过程如下:其中,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,计算过程如下:步骤四,当分类模型预测该未标注样本不属于当前学习类别时,使用该样本添加标注后对分类模型在未标注数据集上风险期望值的改变G(U,x)计算该样本的信息含量,计算过程如下:这里,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,计算过程如下:步骤五,对所有未标注样本的信息含量按照升序排序,选择对分类模型训练最有帮助的样本x*。步骤六,将所选择的样本x*添加标注信息,将所选样本及其对应的正确标注信息{x*,y*}添加到训练数据集D中,并将未标注样本x*从未标注样本集U中移除。步骤七,重复进行步骤一至步骤六,直至分类模型的精度或者标注代价达到既定标准为止。所述步骤三和步骤四中,未标注数据集上分类模型的期望风险RU(w)的计算方法:其中这里,μy,σy分别表示分类模型对未标注样本所属类别输出值的均值和方差,可以使用plug-in估计过程迭代获得这里有其中,表示分类模型对未标注样本xi的输出值。下面举例对本专利技术的主动学习过程及效果做更详细的描述:1)在训练数据集上学习一个参数为w的分类模型。2)在未标注数据集U上,使用分类模型对每个未标注样本x∈U所属类别y进行预测,获得每一个未标注样本的类别条件概率p(y|x,w)。3)根据分类模型对未标注样本xi的输出建立似然估计函数计算分类模型对未标注样本输出值的均值和方差4)根据参数计算估计当前分类模型在未标注数据集上的期望风险5)当未标注样本所属类别条件概率p(y|x,w)>0.5时,估计训练数据集的密度函数其中,6)当未标注样本所属类别条件概率p(y|x,w)≤0.5时,计算未标注样本x添加本文档来自技高网
...
一种应用于异分布数据环境的主动学习方法

【技术保护点】
一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:

【技术特征摘要】
1.一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:其中,w表示分类模型的参数向量,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,其计算过程为:m为样本个数;当样本x不属于当前学习类别时,使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准,其估计过程为:其中,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,其计算过程为:

【专利技术属性】
技术研发人员:吴伟宁
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1