当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于机器学习的二手车估价方法技术

技术编号:35075504 阅读:11 留言:0更新日期:2022-09-28 11:40
本发明专利技术涉及二手车估价技术领域,尤其涉及一种基于机器学习的二手车估价方法,包括以下步骤:获取大量二手车交易数据作为原始训练数据,进行数据预处理;计算原始数据对应的保值率,建立线性回归预测模型,并且计算保值率阈值进而划分高低保值率数据;分别建立XGBoost预测模型;当需要预测任意二手车价格时,本发明专利技术使用线性回归算法对于该数据进行初步分类,分类为高保值率或低保之旅数据;再导入对应的XGBoost预测模型,进行价格的预测。相比于使用其他的机器学习算法,本发明专利技术将保值率概念,线性回归算法,XGBoost算法三者相结合对于价格预测问题可有效减小预测误差。差。差。

【技术实现步骤摘要】
一种基于机器学习的二手车估价方法


[0001]本专利技术涉及二手车估价
,尤其涉及一种基于机器学习的二手车估价方法。

技术介绍

[0002]二手车作为一种特殊的“电商商品”,因为其“一车一况”的特性比一般电商商品的交易要复杂得多,究其原因是二手车价格难于准确估计和设定,不但受到二手车本身基础配置,如品牌、排量、国别等的影响,还受到使用情况如使用年限、机身受损和维修情况等的影响,甚至新车价格的变化也会对二手车价格带来影响。目前国家并没有出台一个评判二手车资产价值的标准。一些二手车交易平台和第三方估价平台都从自身的角度建立了一系列估价方法用于评估二手车资产的价值。传统的二手车估价主要依靠门店的估价师进行估价,最终确定的价格受到估价师的主观影响大,且没有一个较为客观统一的标准。
[0003]目前用于二手车估价的算法较为简单,且许多关键参数仍然需要人为设置,无法有效避免主观性强的问题。近年来,随着机器学习算法的进步发展,帮助我们对大量数据进行分析预测,本专利技术所提出的一种基于机器学习的二手车估价方法只需提供对应数据集,即可较为精确输出二手车预测价格,且误差在允许范围内,为购车者选购二手车时提供价格参考的依据,填补了国内此方面的空白。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的是提供一种基于机器学习的二手车估价方法,用于解决:二手车预估价格受到估价师的主观影响大,且目前二手车市场评估没有一个较为客观统一的标准,为购车者选购二手车时提供价格参考的依据。
[0005]为了实现上述目的,本专利技术是通过如下的技术方案来实现:
[0006]本专利技术提供了一种基于机器学习的二手车估价方法,包括:原始数据模块,数据处理模块,计算保值率模块,训练线性回归模型,计算保值率阈值k模块,划分数据集模块,训练高/低保值率XGBoost模型,输入数据模块,训练好的线性回归模型,依据阈值k初步划分模块,训练好的高/低XGBoost预测模型,输出结果模块组成。
[0007]一种基于机器学习的二手车估价方法,包括以下步骤:
[0008]S1.数据处理
[0009]获取一批二手车的特征参数以及成交价格,记为原始数据集;将原始数据集中的二手车的价格特征参数进行数据预处理,缺失值采用平均值代替,当某数据大于平均数据10倍以上时判断其为异常数据,并且对其剔除。
[0010]S2.线性模型训练以及阈值计算
[0011]计算原始数据集中的二手车对应保值率,保值率=成交价/新车价;
[0012]利用计算完保值率的原始数据,进行线性回归模型的训练,步骤如下:
[0013]步骤(1):根据二手车特征变量作为自变量,保值率作为因变量,建立线性回归方
程。设U
p
表示第p个自变量,t
i
为第i个二手车的保值率,则可建立t
i
=β0+β1U1+β2U2+


p
U
p
+ε,其中p≥2,ε为误差且ε~(0,σ2),β
i
为系数;
[0014]步骤(2):设(U
i1
,U
i2


U
ip
,t
i
)是(U1,U2,

U
p
,t)的独立观测值,其中i=1,2,

n,则多元线性模型t
i
=β0+β1U
i1
+β2U
i2


p
U
ip

i

[0015]步骤(3):求最小二乘函数,Q(β)=(t

Uβ)
T
(t

Uβ)当β最小时,线性经验回归为
[0016]步骤(4):将二手车原始数据导入线性经验回归公式中,拟合出系数β
i
,即可求解出保值率线性预测模型;
[0017]将计算保值率阈值k,其中数据总量表示为n,x
i
表示各条数据对应保值率,公式中的u为常量,默认选取0.4;
[0018]依据数据对应保值率是否大于阈值k,将数据划分为高保值率数据以及低保值率数据。
[0019]S3.XGBoost预测模型训练
[0020]分别进行高/低保值率预测模型训练,步骤如下(以高保值率数据为例):
[0021]步骤(1):基于MATLAB构建XGBoost预测模型,对于包含n条m维的二手车数据集,预测二手车价格模型可表示为:测二手车价格模型可表示为:其中,y
i
表示二手车价格,x
i
表示输入的第i个样本数据;f
k
(x
i
)表示第K棵决策树;f
k
为树几何空间F的一个函数;
[0022]步骤(2):构建该模型的核心任务是找到最优的Obj并建立预测方程,目标函数可分为误差函数项L和模型复杂函数项Ω,所以Obj=L+Ω,其中,γ和λ表示加权因子,T为叶子节点个数w
j
表示叶子节点权重。在使用训练数据时对模型进行优化训练时,需要保留原有模型不变,加入一个新的函数f到模型中,使目标函数尽可能的减少;
[0023]步骤(3):此时目标函数表示为:步骤(3):此时目标函数表示为:Obj是可作为评价模型的打分函数,Obj值越小则模型效果越好。通过递归调用上述树的建立方法,可得到大量回归树结构,并使用Obj搜索最优的树结构,从而最优的XGBoost模型建立完毕;
[0024]步骤(4):将训练数据数据导入建立好的XGBoost模型中,得到训练好的预测模型。
[0025]S4.二手车价格预测
[0026]将待确定价格的二手车的特征数据进行筛选,只保留新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数;
[0027]将待确定价格的二手车的特征数据导入线性回归模型进行初步分类,得到该二手车属于高保值率或低保值率数据;
[0028]根据数据类型导入高/低保值率XGBoost预测模型,进行价格预测。
[0029]作为进一步的实现方式,所述线性回归模型以车辆的新车价格,使用年限,行驶里
程,车身体积,年款,品牌id作为影响参数,保值率作为输出参数。
[0030]作为进一步的实现方式,所述XGBoost预测模型以车辆的新车价格,使用年限,行驶里程,车身体积,年款,品牌id作为影响参数,预测价格作为输出参数。有益效果
[0031](1)本专利技术提出的一种基于机器学习的二手车估价方法,使用线性回归算法而不是人为划分价格档位,能够较为客观地考虑二手车的保值率分布,最终训练的回归模型更有针对性;
[0032](2)相比于使用其他的机器学习算法,本专利技术通过保值率划分,能够使预测价格的方差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的二手车估价方法,包括以下步骤:S1.数据处理获取一批二手车的特征参数以及成交价格,记为原始数据集;将原始数据集中的二手车的价格特征参数进行数据预处理,缺失值采用平均值代替,当某数据大于平均数据10倍以上时判断其为异常数据,并且对其剔除;S2.线性模型训练以及阈值计算计算原始数据集中的二手车对应保值率,保值率=成交价/新车价;利用计算完保值率的原始数据,进行线性回归模型的训练,步骤如下:步骤(1):根据二手车特征变量作为自变量,保值率作为因变量,建立线性回归方程。设U
p
表示第p个自变量,t
i
为第i个二手车的保值率,则可建立t
i
=β0+β1U1+β2U2+


p
U
p
+ε,其中p≥2,ε为误差且ε~(0,σ2),β
i
为系数;步骤(2):设(U
i1
,U
i2


U
ip
,t
i
)是(U1,U2,...U
p
,t)的独立观测值,其中i=1,2,

n,则多元线性模型t
i
=β0+β1U
i1
+β2U
i2


p
U
ip

i
;步骤(3):求最小二乘函数,Q(β)=(t

Uβ)
T
(t

Uβ)当β最小时,线性经验回归为步骤(4):将二手车原始数据导入线性经验回归公式中,拟合出系数β
i
,即可求解出保值率线性预测模型;将计算保值率阈值k,其中数据总量表示为n,x
i
表示各条数据对应保值率,公式中的u为常量,默认选取0.4;依据数据对应保值率是否大于阈值k,将数据划分...

【专利技术属性】
技术研发人员:戴敏沈雨田陈建王礼星缪宏张思瑞葛永成张燕军张善文刘思幸杨坚李芳芳曾英卞雯静
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1