The present invention provides an active learning algorithm for heterogeneous data environments. Including the steps of: training classification model on the training data; using the classification model to predict the unlabeled sample category; if the sample belongs to the category, calculating the information content of the sample using the density function of the training data, if the sample does not belong to this category, the use of unlabeled data on the classification model of expected risk change the information content of the sample size calculation; to sort the information content of unlabeled samples; the selection of the most favorable classification model training samples, add training data set after the annotation information; step iterative learning algorithm, until the labeling cost or classification accuracy reaches the preset standards so far. The invention uses the prediction results classification model category of unlabeled samples, different estimates of the information content to be selected standard samples, the classification model can obtain high generalization ability to lower the labeling cost of active learning under the environment of different data distribution.
【技术实现步骤摘要】
一种应用于异分布数据环境的主动学习方法
本专利技术涉及的是一种主动学习算法。
技术介绍
目前,公知的基于监督学习的分类模型训练过程需要预先收集一组标注数据,利用该标注数据作为训练集学习分类模型。在这一学习框架下,训练数据的数量及质量直接决定了所获得分类模型的性能。因而,为了获取一个高泛化能力的分类模型,往往需要以较高的代价获取训练所需的标注数据。当标注数据获取代价大且获取难度高,但是无标注数据廉价易得时,主动学习通过选择部分未标注样本添加标记的方法来获取训练所需的标注数据,达到了降低获取高泛化能力分类模型所需标注代价的目的,并在各个应用领域取得了显著效果,获得了广泛重视。主动学习的基本过程是:首先,标注少部分数据并训练初始分类模型;利用该分类模型对未标注数据进行预测,根据该预测结果选取最有利于当前分类模型训练的样本,添加标注信息后加入训练集;在更新后的训练集上重新训练分类模型;上述过程迭代进行,直至分类模型达到既定的精度要求或者标注代价达到既定标准为止。传统的主动学习方法面临的主要挑战之一是数据的同分布假设。为了保证所学习的分类模型在测试分布上的无偏性,假定训练数据与测试数据来自相同的实验环境,其分布具有相同的统计特征。然而,随着计算能力和存储技术的发展,学习任务面临的数据来源也越来越广泛,其数量和种类也日趋多样化。同时,数据收集环境的多变性也很难保证这些数据具有相同的分布特征,例如:在视频监控任务中,受到室内外环境的影响,实验室条件下获取的训练数据与真实环境中测试数据很难保持完全一致;在垃圾邮件过滤任务中,分类器往往使用预先收集的语料库进行训练,却应用于 ...
【技术保护点】
一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:
【技术特征摘要】
1.一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:其中,w表示分类模型的参数向量,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,其计算过程为:m为样本个数;当样本x不属于当前学习类别时,使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准,其估计过程为:其中,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,其计算过程为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。