模型训练数据的选取方法及装置制造方法及图纸

技术编号:27109578 阅读:27 留言:0更新日期:2021-01-25 19:03
本发明专利技术公开了一种模型训练数据的选取方法及装置。其中,该方法包括:根据样本数据集中样本数据的特征值以及标签,确定样本数据对应的综合得分;根据综合得分对样本数据进行分组,以得到多个样本数据组,其中,样本数据组包括对应的分组标识;根据分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将目标训练数据输入至待训练模型中进行训练。本发明专利技术解决了由于相关技术中模型的训练过程中随机选取训练数据,而导致过拟合、模型预测结果准确度低的技术问题。预测结果准确度低的技术问题。预测结果准确度低的技术问题。

【技术实现步骤摘要】
模型训练数据的选取方法及装置


[0001]本专利技术涉及数据预测
,具体而言,涉及一种模型训练数据的选取方法及装置。

技术介绍

[0002]在相关技术中,支撑采购建议,库内加工、补货,原材料加工,仓配履约等供应链业务场景,更好的实现数据赋能业务,降低成本,提升客户体验,设立了预测平台组,向企业中的事业部输出包括销量预测、运力预测、劳力预测等不同颗粒度的预测数据。大部分业务场景下的需求预测问题都可以转化为“特定条件下的商品销量预测”问题,以智能订货项目为例,该项目主要是为了向采购人员提供采购计算建议量服务,实现采购半自动下单。所以,该项目需要预测算法提供指定时间范围里某件商品的需求量,即提供“天、sku(Stock Keeping Unit,库存量单位)”粒度的销量预测结果。
[0003]当前支撑该预测数据项目的主要算法是XGBboost(提升树可扩展的机器学习系统)。当前快驴To B(To Business,面向企业销售产品)业务需要预测sku数量交大,相对To C(To Consumer,直接面向消费者销售产品)业务场景相对简单,因此当前的预测方案是利用每个场景中每个商品sku的样本数据,单独训练场景中每个商品对应的XGBoost模型。因为这种结构避免了其他商品sku的特征数据对算法的干扰,因此该方案比以仓库或品类为单位建立算法模型,可以得到更准确的预测结果。商品sku的数据分布有很大差异,比如对于高销商品的sku通常会有几百条样本数据,而一般销量商品的sku或者长尾商品可能只有几十条样本数据。在针对坏案例badcase分析的过程中发现以下问题:
[0004](1)虽然在最小粒度(sku)上建模可以迅速优化某些案例case,但因为所有模型共用一套超参数,对于样本稀疏的sku会出现过拟合的问题;
[0005](2)对于数据量较大的商品的sku,还是存在该sku内部“异常”数据对预测值的干扰问题,这种异常并非针对某个特征值,而是指该样本点相对于整体的相似程度较低。例如:某些商品属于季节性商品,可能会在一定期间内具有更高的销量,但是因为整体样本数据(取过去540天)对这种周期包含的不多,同时其他时间段的促销或其他特征(如天气、节假日等)导致的销量提升也会使模型对周期的判断造成干扰,导致模型降低了周期特征重要性,因此最终得到的预测结果很可能趋向于取整体数据的平均销量,没有很好的反映出重要特征的影响;
[0006]通过增加模型容量和数据增强可以一定程度上优化问题,但代价是模型训练时长增加,也有可能引入过拟合问题。以上问题本质是大部分基于特征的机器学习模型对样本数据的采样是随机的,以XGBoost为例,虽然模型在生成新的CART树的时候会抽取部分特征列和样本点以起到减小过拟合的作用,但是选取依然是随机的,没有规律性。对于其他训练模型同样存在该问题。
[0007]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0008]本专利技术实施例提供了一种模型训练数据的选取方法及装置,以至少解决由于相关技术中模型的训练过程中随机选取训练数据,而导致过拟合、模型预测结果准确度低的技术问题。
[0009]根据本专利技术实施例的一个方面,提供了一种模型训练数据的选取方法,包括:根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分;根据所述综合得分对所述样本数据进行分组,以得到多个样本数据组,其中,所述样本数据组包括对应的分组标识;根据所述分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将所述目标训练数据输入至待训练模型中进行训练。
[0010]根据本专利技术实施例的另一方面,还提供了一种模型训练数据的选取装置,包括:确定单元,用于根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分;分组单元,用于根据所述综合得分对所述样本数据进行分组,以得到多个样本数据组,其中,所述样本数据组包括对应的分组标识;采样单元,用于根据所述分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;训练单元,用于将所述目标训练数据输入至预设模型中进行训练。
[0011]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的模型训练数据的选取方法的步骤。
[0012]根据本专利技术实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的模型训练数据的选取方法的步骤。
[0013]在本专利技术实施例中,根据样本数据集中样本数据的特征值以及标签,确定样本数据对应的综合得分;根据综合得分对样本数据进行分组,以得到多个样本数据组,其中,样本数据组包括对应的分组标识;根据分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将目标训练数据输入至待训练模型中进行训练,实现了规律性选择样本数据,降低相似度低的样本点的干扰,达到了减小过拟合的作用,提升了模型预测结果的准确性,进而解决了由于相关技术中模型的训练过程中随机选取训练数据,而导致过拟合、模型预测结果准确度低的技术问题。
附图说明
[0014]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0015]图1是根据本专利技术实施例的一种可选的模型训练数据的选取方法的示意图;
[0016]图2是根据本专利技术实施例的又一种可选的模型训练数据的选取方法的示意图;
[0017]图3是根据本专利技术实施例的一种可选的模型训练数据的选取装置的结构示意图;
[0018]图4是根据本专利技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
[0019]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的
附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0020]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021]实施例1
[0022]由于相关技术中大部分基于特征的机器学习模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练数据的选取方法,其特征在于,包括:根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分;根据所述综合得分对所述样本数据进行分组,以得到多个样本数据组,其中,所述样本数据组包括对应的分组标识;根据所述分组标识在对应的样本数据组中进行样本数据的采样,以得到目标训练数据;将所述目标训练数据输入至待训练模型中进行训练。2.根据权利要求1所述的方法,其特征在于,所述特征值包括多个数值,其中,在根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分之前,还包括:若所述样本数据的数据长度大于预设长度阈值,则根据所述多个数值以及所述标签转换为预设数值类型的第一数值矩阵;对所述第一数值矩阵中的数值进行缩放,以得到第二数值矩阵。3.根据权利要求2所述的方法,其特征在于,根据样本数据集中样本数据的特征值以及标签,确定所述样本数据对应的综合得分,包括:根据所述特征值以及所述标签确定所述样本数据对应的相关性得分;根据所述相关性得分以及所述特征值确定所述综合得分。4.根据权利要求3所述的方法,其特征在于,根据所述特征值以及所述标签确定所述样本数据对应的相关性得分,包括:确定与所述第二数值矩阵对应的相关系数矩阵;根据所述相关系数矩阵确定所述多个数值对应的多个权重值;根据所述多个权重值确定所述样本数据对应的相关性得分。5.根据权利要求4所述的方法,其特征在于,根据所述相关性得分以及所述特征值确定所述综合得分,包括:分离所述第二数值矩阵得到特征值矩阵以及标签矩阵;根据所述相关系数矩阵以及所述特征值矩阵确定所述综合得分。6.根据权利要求1所述的方法,其特征在于,根据所述综合得分对所述样本数据进行分组,以得到多个样本数据组,包括:基于所述综合得分以及多个预设分数区间对所述样本数据进行分组,以得到所述多个样本数据组,其中,所述多个预设分数区间的数值范围相同;根据所述多个预设分数区间的数值大小确定所述多个样本数据组的排序,以及根据所述排序确定所述多个...

【专利技术属性】
技术研发人员:宋振谢蔚唐亮靳一
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1