数据预测的方法和装置制造方法及图纸

技术编号:26531913 阅读:14 留言:0更新日期:2020-12-01 14:13
本发明专利技术公开了一种数据预测的方法和装置。其中,该方法包括:获取样本候选集、未标注样本集和随机采样比例;依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;依据第一初始训练样本和第二初始训练样本进行样本训练,得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本;依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到至少一类群体。本发明专利技术解决了由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。

【技术实现步骤摘要】
数据预测的方法和装置
本专利技术涉及互联网
,具体而言,涉及一种数据预测的方法和装置。
技术介绍
根据中国汽车工业协会数据显示,2018年汽车年销量为2808万辆,这是全国汽车销量增长速度出现了28年以来的第一次负增长,并且从2018年7月开始,汽车当月销量增速一直处于持续负增长的状态。这表明中国的汽车市场正在从增量市场逐渐转变为存量市场。首次购车的消费者数量正在急剧减少,在存量市场中挖掘销售机会开始成为汽车行业的重要课题。行业内传统的做法是,基于4S店多年销售的经验总结,归纳出业务过程中较为明显的换购特点,例如购车年限大于5年,行驶里程超过10万公里等硬规则,运用这样硬规则的筛选,找到潜在的换购人群。但是,该方式过于主观,没有经过大数据的校验,其方法存在一定的劣势,同时需要耗费大量的人力物力开展这一课题。同样,少部分企业已经开始采用机器学习应用于这一场景,通过大量数据的训练,得到一个分类器,最终预测出每个用户的换购意向。现有的做法是,将未标记的样本都作为负样本进行训练,但是存在的几个缺陷:1.在汽车换购行业场景下,正负样本极度不平衡,负样本数量远远超过正样本,使得训练效果很差。2.运用机器学习处理过程中,某些关键样本会干扰分类器的最优分隔面的选择,尤其是SVM。针对上述由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户的换购意向准确率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据预测的方法和装置,以至少解决由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。根据本专利技术实施例的一个方面,提供了一种数据预测的方法,包括:获取样本候选集、未标注样本集和随机采样比例;依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;依据第一初始训练样本和第二初始训练样本进行样本训练,得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本;依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到至少一类群体,其中,至少一类群体用于指示换购车辆的概率。可选的,依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本包括:依据随机采样比例从样本候选集中随机选择部分样本,得到第一样本;将第一样本放入未标注样本集中,得到第一初始训练样本和第二初始训练样本。进一步地,可选的,该方法还包括:在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前,设置第一目标样本集和第二目标样本集为空集。可选的,依据第一初始训练样本和第二初始训练样本进行样本训练,得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本包括:依据第一初始训练样本和第二初始训练样本进行样本训练,得到分类器;依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率;依据第一样本在所有样本的预测概率的分布,设置第一阈值和第二阈值;将未标注样本集中低于第一阈值的样本确定第二目标样本;将未标注样本集中高与第二阈值的样本确定第一目标样本。可选的,依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到至少一类群体包括:依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到已购车辆的群体中各程度换购概率的人群;依据各程度换购概率的人群进行类别划分,得到至少一类群体。根据本专利技术实施例的另一方面,还提供了一种数据预测的装置,包括:获取模块,用于获取样本候选集、未标注样本集和随机采样比例;样本获取模块,用于依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;训练模块,用于依据第一初始训练样本和第二初始训练样本进行样本训练,得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本;预测模块,用于依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到至少一类群体,其中,至少一类群体用于指示换购车辆的概率。可选的,样本获取模块包括:选择单元,用于依据随机采样比例从样本候选集中随机选择部分样本,得到第一样本;样本获取单元,用于将第一样本放入未标注样本集中,得到第一初始训练样本和第二初始训练样本。进一步地,可选的,该装置还包括:设置模块,用于在依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集之前,设置第一目标样本集和第二目标样本集为空集。可选的,训练模块包括:训练单元,用于依据第一初始训练样本和第二初始训练样本进行样本训练,得到分类器;计算单元,用于依据分类器对未标注样本集和样本候选集,计算所有样本的预测概率;设置单元,用于依据第一样本在所有样本的预测概率的分布,设置第一阈值和第二阈值;第一确定单元,用于将未标注样本集中低于第一阈值的样本确定第二目标样本;第二确定单元,用于将未标注样本集中高与第二阈值的样本确定第一目标样本。可选的,预测模块包括:预测单元,用于依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到已购车辆的群体中各程度换购概率的人群;分类单元,用于依据各程度换购概率的人群进行类别划分,得到至少一类群体。根据本专利技术实施例的另一方面,还提供了一种非易失性存储介质,其中,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述方法。根据本专利技术实施例的另一方面,还提供了一种处理器,其中,处理器用于运行程序,其中,程序运行时执行上述方法。在本专利技术实施例中,通过获取样本候选集、未标注样本集和随机采样比例;依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;依据第一初始训练样本和第二初始训练样本进行样本训练,得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本;依据第一目标样本和第二目标样本进行样本训练,得到对应目标分类器,并依据目标分类器对已购车辆的群体进行模型预测,得到至少一类群体,其中,至少一类群体用于指示换购车辆的概率,达到了准确预测用户换购意向的目的,从而实现了提升了预测用户的换购意向准确率技术效果,进而解决了由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的数据预测的方法的流程示意图;图2是根据本文档来自技高网...

【技术保护点】
1.一种数据预测的方法,其特征在于,包括:/n获取样本候选集、未标注样本集和随机采样比例;/n依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;/n依据所述第一初始训练样本和所述第二初始训练样本进行样本训练,得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本;/n依据所述第一目标样本和所述第二目标样本进行样本训练,得到对应目标分类器,并依据所述目标分类器对已购车辆的群体进行模型预测,得到至少一类群体,其中,所述至少一类群体用于指示换购车辆的概率。/n

【技术特征摘要】
1.一种数据预测的方法,其特征在于,包括:
获取样本候选集、未标注样本集和随机采样比例;
依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本;
依据所述第一初始训练样本和所述第二初始训练样本进行样本训练,得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本;
依据所述第一目标样本和所述第二目标样本进行样本训练,得到对应目标分类器,并依据所述目标分类器对已购车辆的群体进行模型预测,得到至少一类群体,其中,所述至少一类群体用于指示换购车辆的概率。


2.根据权利要求1所述的方法,其特征在于,依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集,得到第一初始训练样本和第二初始训练样本包括:
依据所述随机采样比例从所述样本候选集中随机选择部分样本,得到第一样本;
将所述第一样本放入所述未标注样本集中,得到所述第一初始训练样本和所述第二初始训练样本。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集之前,设置第一目标样本集和第二目标样本集为空集。


4.根据权利要求2所述的方法,其特征在于,依据所述第一初始训练样本和所述第二初始训练样本进行样本训练,得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本包括:
依据所述第一初始训练样本和所述第二初始训练样本进行样本训练,得到分类器;
依据所述分类器对所述未标注样本集和所述样本候选集,计算所有样本的预测概率;
依据所述第一样本在所有样本的预测概率的分布,设置第一阈值和第二阈值;
将所述未标注样本集中低于所述第一阈值的样本确定所述第二目标样本;
将所述未标注样本集中高与所述第二阈值的样本确定所述第一目标样本。


5.根据权利要求1所述的方法,其特征在于,所述依据所述第一目标样本和所述第二目标样本进行样本训练,得到对应目标分类器,并依据所述目标分类器对已购车辆的群体进行模型预测,得到至少一类群体包括:
依据第一目标样本和第二目标样本进行样本训练,得到对应所述目标分类器,并依据所述目标分类器对已购车辆的群体进行模型预测,得到已购车辆的群体中各程度换购概率的人群;
依据各程度换购概率的人群进行类别划分,得到所述至少一类群体。


6.一种数据预测的装置,其特征在于,包括:
获取模块,用于获取样本候...

【专利技术属性】
技术研发人员:詹秋泉
申请(专利权)人:北京深演智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1