模型训练方法及系统、存储介质技术方案

技术编号:33989677 阅读:12 留言:0更新日期:2022-07-02 09:22
本申请实施例提供一种模型训练方法及系统、存储介质,包括:获取异构分布半监督数据集;根据所述异构分布半监督数据集的元特征确定半监督学习算法;根据所述半监督学习算法和所述异构分布半监督数据集,得到M个模型和所述M个模型分别对应的权重,其中,所述M个模型的精度满足预设条件。通过本申请实施例,基于异构分布半监督数据集,根据异构分布半监督数据集的元特征确定半监督学习算法,并根据该半监督学习算法和该异构分布半监督数据集,得到M个模型和该M个模型分别对应的权重。采用该手段,基于异构分布半监督数据集得到多个模型,提高了在异构分布半监督数据集场景下训练得到的模型精度,进而提升了交付效率和交付质量。量。量。

【技术实现步骤摘要】
模型训练方法及系统、存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法及系统、存储介质。

技术介绍

[0002]现有机器学习建模技术得到了广泛的发展和应用,无论在学术界还是工业界均取得了阶段性的进展。然而,随着机器学习建模技术产业化的应用场景和应用需求不断增多,面临样本标注成本高、样本标注数量不足等应用问题。为解决上述问题,半监督学习技术应运而生。相比于有监督学习,半监督学习可利用少量有标注样本及大量无标注样本构成的半监督数据集进行机器学习建模,以逼近仅利用海量有标注样本构成的数据集进行有监督学习建模的效果。
[0003]同时,这类问题在电信领域也屡见不鲜。而且,在电信领域大部分应用场景中,还存在样本特征维度高、特征构成多源(用户信息、设备信息、网络信息等)的情况,导致数据集特征分布杂乱、噪声大,使得机器学习专家在该领域应用传统半监督学习技术时,存在以下问题:1)交付效率低:需要尝试不同类型半监督学习算法,并不断对算法参数调优,导致试错成本高,交付周期长,交付效率低。2)交付质量低:仅使用单一的半监督学习算法,可能无法很好地适配数据集特征分布特点,导致模型精度偏低。
[0004]为使半监督学习技术在电信领域从能用到真正的好用,自动化半监督学习技术成为业界研究的前沿技术。该技术利用自动化机器学习技术,结合半监督学习算法,通过自动迭代寻优的方式,训练得到模型,以达到提高电信领域在上述场景中的模型交付效率和交付质量的目标。
[0005]在电信领域部分应用场景中,由于数据集中样本特征的值的记录来自于不同域(用户域、设备域、网络域等)的信息,导致数据集内特征的取值的数据类型多样(连续、离散、序数等)、特征内及特征间关系模式繁多(时序模式、空间模式、结构模式等)、特征子集存在多种分布类型(正态分布、长尾分布、流形/平滑性分布、大间隔/低密度分布等),该类场景中具备上述数据集特征分布特点的数据集称之为异构分布数据集,如图1所示。当异构分布数据集中只有部分样本有标注信息时,称为异构分布半监督数据集。其中,异构分布数据集无法用单一分布形式对整体数据集特征分布情况进行描述。如图2所示,左边为大间隔/低密度分布数据集二维投影图,可看到在该分布下,数据集中样本子集可明显成簇,而从右边异构分布数据集二维投影图可看到,除了部分可明显成簇的样本子集,还有部分样本子集簇间分界不明显,无法用单一分布形式进行描述。
[0006]在判断数据集分布时,现有技术主要利用无标注数据的无监督聚类特征,如图3所示。然而仅能描述和识别样本自己可明显成簇的单一有约束分布数据集(流形/平滑性分布、大间隔/低密度分布),如图4所示;同时,在最终模型输出时,仅能输出一个适用于单一有约束分布数据集(流形/平滑性分布、大间隔/低密度分布)的模型。这样导致在异构分布数据集场景下得到的模型仅能在符合对应单一有约束分布形式描述的样本子集上适用,导致模型在整体上的预测精度低。

技术实现思路

[0007]本申请公开了一种模型训练方法及系统、存储介质,可以实现较高的预测精度。
[0008]第一方面,本申请实施例提供一种模型训练方法,包括:获取异构分布半监督数据集;根据所述异构分布半监督数据集的元特征确定半监督学习算法;根据所述半监督学习算法和所述异构分布半监督数据集,得到M个模型和所述M个模型分别对应的权重,其中,所述M个模型的精度满足预设条件,如均大于预设精度等,M为不小于1的整数。
[0009]通过本申请实施例,基于异构分布半监督数据集,根据异构分布半监督数据集的元特征确定半监督学习算法,并根据该半监督学习算法和该异构分布半监督数据集,得到M个模型和该M个模型分别对应的权重。采用该手段,基于异构分布半监督数据集得到多个模型,提高了在异构分布半监督数据集场景下训练得到的模型精度,进而提升了交付效率和交付质量。
[0010]其中,所述根据所述异构分布半监督数据集的元特征确定半监督学习算法,包括:确定所述异构分布半监督数据集的边距密度;根据所述异构分布半监督数据集的边距密度确定半监督学习算法。
[0011]进一步地,还包括:获取所述异构分布半监督数据集的至少一个统计分析参数;所述根据所述异构分布半监督数据集的边距密度确定半监督学习算法,包括:根据所述至少一个统计分析参数和所述边距密度确定所述半监督学习算法。
[0012]其中,可选的,所述边距密度满足以下条件:MD=a*∑l
0/1
(y
l
,f(x
l
))+b*∑1/R
dist
(f(
·
),x
u
);其中,MD为边距密度;a、b均不小于0,且a+b=1,l
0/1
(
·
)为损失函数;
[0013][0014]y
l
为真实标签,f(x
l
)为划分超平面对有标注样本x
l
的分类结果;R
dist
(f(
·
),x
u
)为距离函数。
[0015]进一步地,所述边距密度满足以下条件:
[0016][0017]ξ为松弛变量,ξ
i
(i=1,2,...,l)对应有标注样本,ξ
i
(i=l+1,l+2,...,m)对应无标注样本;c大于0。
[0018]其中,所述根据所述半监督学习算法和所述异构分布半监督数据集,得到M个模型和所述M个模型分别对应的权重,包括:根据所述半监督学习算法和所述异构分布半监督数据集,得到N个候选模型,N为不小于1的整数;对所述N个候选模型分别进行训练,得到训练后的N个候选模型;分别计算所述训练后的N个候选模型的精度;从所述N个候选模型中获取精度满足所述预设条件的M个模型,其中,N为不小于M的整数;根据所述M个模型获取每个模型的最优融合权重,以得到所述M个模型分别对应的权重。
[0019]其中,所述获取每个模型的最优融合权重,包括:根据所述M个模型分别对所述异构分布半监督数据集中的每个有标注样本和每个无标注样本进行预测,得到所述每个有标注样本和每个无标注样本分别对应所述M个模型的预测类别概率;根据所述每个无标注样本分别对应所述M个模型的预测类别概率得到无标注样本集合的加权融合信息熵;根据所述每个有标注样本分别对应所述M个模型的预测类别概率以及样本标注信息得到有标注样
本集合的加权融合误差率;根据所述无标注样本集合的加权融合信息熵和所述有标注样本集合的加权融合误差率得到最优化目标函数;根据所述最优化目标函数确定所述M个模型中每个模型的最优融合权重。
[0020]进一步地,还包括根据所述异构分布半监督数据集的元特征确定所述最优化目标函数的约束条件;所述根据所述最优化目标函数得到所述M个模型中每个模型的最优融合权重,包括:根据所述最优化目标函数和所述最优化目标函数的约束条件得到所述M个模型中每个模型的最优融合权重。
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取异构分布半监督数据集;根据所述异构分布半监督数据集的元特征确定半监督学习算法;根据所述半监督学习算法和所述异构分布半监督数据集,得到M个模型和所述M个模型分别对应的权重,其中,所述M个模型的精度均大于预设精度,M为不小于1的整数。2.根据权利要求1所述的方法,其特征在于,所述根据所述异构分布半监督数据集的元特征确定半监督学习算法,包括:确定所述异构分布半监督数据集的边距密度;根据所述异构分布半监督数据集的边距密度确定半监督学习算法。3.根据权利要求2所述的方法,其特征在于,还包括:获取所述异构分布半监督数据集的至少一个统计分析参数;所述根据所述异构分布半监督数据集的边距密度确定半监督学习算法,包括:根据所述至少一个统计分析参数和所述边距密度确定所述半监督学习算法。4.根据权利要求2或3所述的方法,其特征在于,所述边距密度满足以下条件:MD=a*∑l
0/1
(y
l
,f(x
l
))+b*∑1/R
dist
(f(
·
),x
u
);其中,MD为边距密度;a、b均不小于0,且a+b=1,l
0/1
(
·
)为损失函数;y
l
为真实标签,f(x
l
)为划分超平面对有标注样本x
l
的分类结果;R
dist
(f(
·
),x
u
)为距离函数。5.根据权利要求2或3所述的方法,其特征在于,所述边距密度满足以下条件:ξ为松弛变量,ξ
i
(i=1.2,...,l)对应有标注样本,ξ
i
(i=l+1,l+2,...,m)对应无标注样本;c大于0。6.根据权利要求1所述的方法,其特征在于,所述根据所述半监督学习算法和所述异构分布半监督数据集,得到M个模型和所述M个模型分别对应的权重,包括:根据所述半监督学习算法和所述异构分布半监督数据集,得到N个候选模型,N为不小于1的整数;对所述N个候选模型分别进行训练,得到训练后的N个候选模型;分别计算所述训练后的N个候选模型的精度;从所述N个候选模型中获取精度大于所述预设精度的M个模型,其中,N为不小于M的整数;根据所述M个模型获取每个模型的最优融合权重,以得到所述M个模型分别对应的权重。7.根据权利要求6所述的方法,其特征在于,所述获取每个模型的最优融合权重,包括:根据所述M个模型分别对所述异构分布半监督数据集中的每个有标注样本和每个无标注样本进行预测,得到所述每个有标注样本和每个无标注样本分别对应所述M个模型的预测类别概率;
根据所述每个无标注样本分别对应所述M个模型的预测类别概率得到无标注样本集合的加权融合信息熵;根据所述每个有标注样本分别对应所述M个模型的预测类别概率以及样本标注信息得到有标注样本集合的加权融合误差率;根据所述无标注样本集合的加权融合信息熵和所述有标注样本集合的加权融合误差率得到最优化目标函数;根据所述最优化目标函数确定所述M个模型中每个模型的最优融合权重。8.根据权利要求7所述的方法,其特征在于,还包括根据所述异构分布半监督数据集的元特征确定所述最优化目标函数的约束条件;所述根据所述最优化目标函数得到所述M个模型中每个模型的最优融合权重,包括:根据所述最优化目标函数和所述最优化目标函数的约束条件得到所述M个模型中每个模型的最优融合权重。9.一种模型训练系统,其特征在于,包括:获取模块,用于...

【专利技术属性】
技术研发人员:林科权涛缪丹丹
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1