模型训练方法及系统、存储介质技术方案

技术编号：33989677 阅读：12 留言：0更新日期：2022-07-02 09:22

本申请实施例提供一种模型训练方法及系统、存储介质，包括：获取异构分布半监督数据集；根据所述异构分布半监督数据集的元特征确定半监督学习算法；根据所述半监督学习算法和所述异构分布半监督数据集，得到M个模型和所述M个模型分别对应的权重，其中，所述M个模型的精度满足预设条件。通过本申请实施例，基于异构分布半监督数据集，根据异构分布半监督数据集的元特征确定半监督学习算法，并根据该半监督学习算法和该异构分布半监督数据集，得到M个模型和该M个模型分别对应的权重。采用该手段，基于异构分布半监督数据集得到多个模型，提高了在异构分布半监督数据集场景下训练得到的模型精度，进而提升了交付效率和交付质量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及系统、存储介质

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法及系统、存储介质。

技术介绍

[0002]现有机器学习建模技术得到了广泛的发展和应用，无论在学术界还是工业界均取得了阶段性的进展。然而，随着机器学习建模技术产业化的应用场景和应用需求不断增多，面临样本标注成本高、样本标注数量不足等应用问题。为解决上述问题，半监督学习技术应运而生。相比于有监督学习，半监督学习可利用少量有标注样本及大量无标注样本构成的半监督数据集进行机器学习建模，以逼近仅利用海量有标注样本构成的数据集进行有监督学习建模的效果。
[0003]同时，这类问题在电信领域也屡见不鲜。而且，在电信领域大部分应用场景中，还存在样本特征维度高、特征构成多源(用户信息、设备信息、网络信息等)的情况，导致数据集特征分布杂乱、噪声大，使得机器学习专家在该领域应用传统半监督学习技术时，存在以下问题：1)交付效率低：需要尝试不同类型半监督学习算法，并不断对算法参数调优，导致试错成本高，交付周期长，交付效率低。2)交付质量低：仅使用单一的半监督学习算法，可能无法很好地适配数据集特征分布特点，导致模型精度偏低。
[0004]为使半监督学习技术在电信领域从能用到真正的好用，自动化半监督学习技术成为业界研究的前沿技术。该技术利用自动化机器学习技术，结合半监督学习算法，通过自动迭代寻优的方式，训练得到模型，以达到提高电信领域在上述场景中的模型交付效率和交付质量的目标。
[0005]在电信领域部分应用场景中，由于数据集中样

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取异构分布半监督数据集；根据所述异构分布半监督数据集的元特征确定半监督学习算法；根据所述半监督学习算法和所述异构分布半监督数据集，得到M个模型和所述M个模型分别对应的权重，其中，所述M个模型的精度均大于预设精度，M为不小于1的整数。2.根据权利要求1所述的方法，其特征在于，所述根据所述异构分布半监督数据集的元特征确定半监督学习算法，包括：确定所述异构分布半监督数据集的边距密度；根据所述异构分布半监督数据集的边距密度确定半监督学习算法。3.根据权利要求2所述的方法，其特征在于，还包括：获取所述异构分布半监督数据集的至少一个统计分析参数；所述根据所述异构分布半监督数据集的边距密度确定半监督学习算法，包括：根据所述至少一个统计分析参数和所述边距密度确定所述半监督学习算法。4.根据权利要求2或3所述的方法，其特征在于，所述边距密度满足以下条件：MD＝a*∑l
0/1
(y
l
，f(x
l
))+b*∑1/R
dist
(f(
·
)，x
u
)；其中，MD为边距密度；a、b均不小于0，且a+b＝1，l
0/1
(
·
)为损失函数；y
l
为真实标签，f(x
l
)为划分超平面对有标注样本x
l
的分类结果；R
dist
(f(
·
)，x
u
)为距离函数。5.根据权利要求2或3所述的方法，其特征在于，所述边距密度满足以下条件：ξ为松弛变量，ξ
i
(i＝1.2，...，l)对应有标注样本，ξ
i
(i＝l+1，l+2，...，m)对应无标注样本；c大于0。6.根据权利要求1所述的方法，其特征在于，所述根据所述半监督学习算法和所述异构分布半监督数据集，得到M个模型和所述M个模型分别对应的权重，包括：根据所述半监督学习算法和所述异构分布半监督数据集，得到N个候选模型，N为不小于1的整数；对所述N个候选模型分别进行训练，得到训练后的N个候选模型；分别计算所述训练后的N个候选模型的精度；从所述N个候选模型中获取精度大于所述预设精度的M个模型，其中，N为不小于M的整数；根据所述M个模型获取每个模型的最优融合权重，以得到所述M个模型分别对应的权重。7.根据权利要求6所述的方法，其特征在于，所述获取每个模型的最优融合权重，包括：根据所述M个模型分别对所述异构分布半监督数据集中的每个有标注样本和每个无标注样本进行预测，得到所述每个有标注样本和每个无标注样本分别对应所述M个模型的预测类别概率；
根据所述每个无标注样本分别对应所述M个模型的预测类别概率得到无标注样本集合的加权融合信息熵；根据所述每个有标注样本分别对应所述M个模型的预测类别概率以及样本标注信息得到有标注样本集合的加权融合误差率；根据所述无标注样本集合的加权融合信息熵和所述有标注样本集合的加权融合误差率得到最优化目标函数；根据所述最优化目标函数确定所述M个模型中每个模型的最优融合权重。8.根据权利要求7所述的方法，其特征在于，还包括根据所述异构分布半监督数据集的元特征确定所述最优化目标函数的约束条件；所述根据所述最优化目标函数得到所述M个模型中每个模型的最优融合权重，包括：根据所述最优化目标函数和所述最优化目标函数的约束条件得到所述M个模型中每个模型的最优融合权重。9.一种模型训练系统，其特征在于，包括：获取模块，用于...

【专利技术属性】
技术研发人员：林科，权涛，缪丹丹，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人