数据预测的方法和装置制造方法及图纸

技术编号：26531913 阅读：14 留言：0更新日期：2020-12-01 14:13

本发明专利技术公开了一种数据预测的方法和装置。其中，该方法包括：获取样本候选集、未标注样本集和随机采样比例；依据样本候选集、未标注样本集和随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；依据第一初始训练样本和第二初始训练样本进行样本训练，得到对应第一初始训练样本的第一目标样本和对应第二初始训练样本的第二目标样本；依据第一目标样本和第二目标样本进行样本训练，得到对应目标分类器，并依据目标分类器对已购车辆的群体进行模型预测，得到至少一类群体。本发明专利技术解决了由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户换购意向准确率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
数据预测的方法和装置
本专利技术涉及互联网
，具体而言，涉及一种数据预测的方法和装置。
技术介绍
根据中国汽车工业协会数据显示，2018年汽车年销量为2808万辆，这是全国汽车销量增长速度出现了28年以来的第一次负增长，并且从2018年7月开始，汽车当月销量增速一直处于持续负增长的状态。这表明中国的汽车市场正在从增量市场逐渐转变为存量市场。首次购车的消费者数量正在急剧减少，在存量市场中挖掘销售机会开始成为汽车行业的重要课题。行业内传统的做法是，基于4S店多年销售的经验总结，归纳出业务过程中较为明显的换购特点，例如购车年限大于5年，行驶里程超过10万公里等硬规则，运用这样硬规则的筛选，找到潜在的换购人群。但是，该方式过于主观，没有经过大数据的校验，其方法存在一定的劣势，同时需要耗费大量的人力物力开展这一课题。同样，少部分企业已经开始采用机器学习应用于这一场景，通过大量数据的训练，得到一个分类器，最终预测出每个用户的换购意向。现有的做法是，将未标记的样本都作为负样本进行训练，但是存在的几个缺陷：1.在汽车换购行业场景下，正负样本极度不平衡，负样本数量远远超过正样本，使得训练效果很差。2.运用机器学习处理过程中，某些关键样本会干扰分类器的最优分隔面的选择，尤其是SVM。针对上述由于相关技术中在进行机器学习时基于不平衡数据导致预测得到的用户的换购意向准确率低的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据预测的方法和装置，以至...

【技术保护点】
1.一种数据预测的方法，其特征在于，包括：/n获取样本候选集、未标注样本集和随机采样比例；/n依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；/n依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本；/n依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，所述至少一类群体用于指示换购车辆的概率。/n

【技术特征摘要】
1.一种数据预测的方法，其特征在于，包括：
获取样本候选集、未标注样本集和随机采样比例；
依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本；
依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本；
依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体，其中，所述至少一类群体用于指示换购车辆的概率。

2.根据权利要求1所述的方法，其特征在于，依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集，得到第一初始训练样本和第二初始训练样本包括：
依据所述随机采样比例从所述样本候选集中随机选择部分样本，得到第一样本；
将所述第一样本放入所述未标注样本集中，得到所述第一初始训练样本和所述第二初始训练样本。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
在依据所述样本候选集、所述未标注样本集和所述随机采样比例获取至少一类训练样本集之前，设置第一目标样本集和第二目标样本集为空集。

4.根据权利要求2所述的方法，其特征在于，依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到对应所述第一初始训练样本的第一目标样本和对应所述第二初始训练样本的第二目标样本包括：
依据所述第一初始训练样本和所述第二初始训练样本进行样本训练，得到分类器；
依据所述分类器对所述未标注样本集和所述样本候选集,计算所有样本的预测概率；
依据所述第一样本在所有样本的预测概率的分布，设置第一阈值和第二阈值；
将所述未标注样本集中低于所述第一阈值的样本确定所述第二目标样本；
将所述未标注样本集中高与所述第二阈值的样本确定所述第一目标样本。

5.根据权利要求1所述的方法，其特征在于，所述依据所述第一目标样本和所述第二目标样本进行样本训练，得到对应目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到至少一类群体包括：
依据第一目标样本和第二目标样本进行样本训练，得到对应所述目标分类器，并依据所述目标分类器对已购车辆的群体进行模型预测，得到已购车辆的群体中各程度换购概率的人群；
依据各程度换购概率的人群进行类别划分，得到所述至少一类群体。

6.一种数据预测的装置，其特征在于，包括：
获取模块，用于获取样本候...

【专利技术属性】
技术研发人员：詹秋泉，
申请(专利权)人：北京深演智能科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人