一种驾驶场景数据挖掘方法技术

技术编号:33444737 阅读:14 留言:0更新日期:2022-05-19 00:30
本发明专利技术涉及一种驾驶场景数据挖掘方法,包括步骤:S10.获取初始模型和待筛选数据池,对待筛选数据池做前向预测;S20.对预测结果进行数据挖掘,得到每个样本对应的价值得分;S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集;S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集,训练得到本轮迭代模型;S50.将价值样本集中剩余价值样本作为迭代待筛选数据池,对迭代待筛选数据池做前向预测;S60.返回步骤S20,直至迭代待筛选数据池中只剩下无价值样本或价值很小样本,得到最终迭代模型以及最终迭代数据集。本发明专利技术的数据挖掘过程使用主动学习方式进行模型迭代和数据集扩增,加快了模型迭代速度,在相同数据量下,模型可达更高精度。模型可达更高精度。模型可达更高精度。

【技术实现步骤摘要】
一种驾驶场景数据挖掘方法


[0001]本专利技术涉及数据挖掘
,特别是涉及一种驾驶场景数据挖掘方法。

技术介绍

[0002]近年来,随着各种统计报表显示大数据时代的到来,数据获取及传输新技术的发展,带来了数据指数级增速,而相关研究表明,数据可以加速模型迭代,模型的量产及落地部署,均依赖于大数据集。
[0003]模型对大数据集的依赖,同时带来了对标签的挑战,为了加速模型迭代速度,满足项目的经费及时间预算,对标签的质和量均提出了较高需求,而某些类型的数据及标签获取时间及预算成本高,比如:
[0004](1)数据很难获取的特殊工况场景,如:车祸发生时刻数据;
[0005](2)数据获取成本或传感器成本高,如:雷达点云;
[0006](3)标签获取耗时高,如:全景语义分割。
[0007]传统算法基于被动学习来做迭代,每次待标定数据集均是随机采样得到的;相关研究表明,相比于主动学习每次根据数据价值做数据挖掘的方式,传统算法在达到和主动学习相同精度时,需要多使用40%~50%的样本。
[0008]而主动学习的核心部分为数据挖掘算法,一些挖掘方法基于特征降维分析,需要侵入模型内部或修改模型的输出接口,对用户不友好,平台复用性不高,而且算法复杂度较高;自动驾驶场景一些基于影子模式的挖掘方法,需要在车端量产部署算法后使用,并且感知层、决策层、控制层整个数据链路都需要打通,无法用于前期算法单独开发,且成本较高,周期较长;另外一些数据挖掘算法针对特定的算法设计,无法以较小成本迁移到其他任务,通用性不高。

技术实现思路

[0009]本专利技术为克服上述现有技术中模型迭代及数据集的构建采用被动学习方式,对大数据集过分依赖,算法落地困难,超过项目预算的问题,以及需要解决的如何高效使用大数据,减少GPU及CPU消耗,减少存储资源消耗,如何自动化 Hardcase与Badcase挖掘帮助自动化构建回归测试ISSUE集,如何自动挖掘车端数据,实现模型在线训练,如何自动挖掘云端数据,减少数据采集需求,以及如何开发高效而通用的数据挖掘算法的问题,提供一种驾驶场景数据挖掘方法。
[0010]为解决上述技术问题,本专利技术的技术方案如下:
[0011]一种驾驶场景数据挖掘方法,包括步骤:
[0012]S10.获取初始模型和待筛选数据池,采用初始模型对待筛选数据池做前向预测;
[0013]S20.采用数据挖掘算法对预测结果进行数据挖掘,得到每个样本对应的价值得分;
[0014]S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集;
[0015]S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集,训练得到本轮迭代模型;
[0016]S50.将价值样本集中剩余价值样本作为迭代待筛选数据池,采用本轮迭代模型对迭代待筛选数据池做前向预测;
[0017]S60.返回步骤S20,直至迭代待筛选数据池中只剩下无价值样本或价值很小样本,得到最终迭代模型以及最终迭代数据集。
[0018]进一步的,作为优选技术方案,步骤S10具体包括:
[0019]S101.获取原始图像序列,采用图像去重算法对其进行去重得到去重数据集;
[0020]S102.从去重数据集中挑选部分样本作为初始数据集,训练得到初始模型;
[0021]S103.将去重数据集中剩余样本作为待筛选数据池,采用初始模型对待筛选数据池做前向预测。
[0022]进一步的,作为优选技术方案,步骤S101具体包括:
[0023]S1011.对原始图像序列中的每张图片样本提取其特征向量;
[0024]S1012.根据特征向量计算任意一张图片样本与所有图片样本之间的相似度;
[0025]S1013.判断相似度得分是否超过预设阈值,若是,删除相似度超过预设阈值的图片样本,得到去重数据集。
[0026]进一步的,作为优选技术方案,所述图像去重算法基于神经网络,步骤S101 具体为:
[0027]采用CNN网络对原始数据集中的每张图片样本提取其1024维特征向量。
[0028]进一步的,作为优选技术方案,所述相似度的度量指标为两个特征向量之间的归一化内积值;
[0029]所述相似度通过以下公式计算:
[0030]K(X,Y)=(X,Y)/(||X||*||Y||);
[0031]其中,K表示相似度得分,X、Y表示1024维特征向量,(X,Y)表示向量内积,||X||、||Y||表示向量模。
[0032]进一步的,作为优选技术方案,所述数据挖掘算法基于多模型对比数据挖掘,即,所述数据挖掘算法至少基于计算规模或者模型结构设计不同的第一模型和第二模型,步骤S20具体为:
[0033]S201.将预测结果分别输入到第一模型和第二模型,得到相对应的第一检测结果和第二检测结果;
[0034]S202.对第一检测结果和第二检测结果中的检测框进行一一匹配,得到第一检测结果和第二检测结果相匹配的指标参数;
[0035]S203.根据指标参数得到当前样本对应的价值得分。
[0036]进一步的,作为优选技术方案,在步骤S202中,将第一检测结果作为真值,将第二检测结果作为检测值;或者,将第二检测结果作为真值,将第一检测结果作为检测值;
[0037]指标参数包括假正例、真正例和假反例;
[0038]步骤S202具体为:
[0039]采用面积交并比的算法对第一检测结果和第二检测结果中的检测框进行一一匹配,得到第一检测结果和第二检测结果相匹配的假正例、真正例和假反例。
[0040]进一步的,作为优选技术方案,在步骤S203具体包括:
[0041]S2031.根据第一检测结果和第二检测结果相匹配的假正例、真正例和假反例计算第一检测结果和第二检测结果的精确率和召回率;
[0042]S2032.根据第一检测结果和第二检测结果的精确率和召回率计算的得到当前样本对应的价值得分。
[0043]进一步的,作为优选技术方案,所述精确率为真正例与真正例和假正例之和的比值;
[0044]所述召回率为真正例与真正例和假反例之和的比值;
[0045]所述价值得分为精确率和召回率的乘积与1之间的差值。
[0046]进一步的,作为优选技术方案,所述数据挖掘算法基于单模型前向数据挖掘,即,所述数据挖掘算法基于第三模型,步骤S20具体为:
[0047]S204.将预测结果输入到第三模型中,得到第三检测结果;
[0048]S205.获取第三检测结果中的所有检测框的置信度;
[0049]S206.判断置信度是否在中间范围,若不在,检测框得分为0,若在,执行下一步骤;
[0050]S207.计算检测框的面积,并根据面积计算检测框的得分;
[0051]S208.将所有检测框的得分进行累加得到当前样本对应的价值得分。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种驾驶场景数据挖掘方法,其特征在于,包括步骤:S10.获取初始模型和待筛选数据池,采用初始模型对待筛选数据池做前向预测;S20.采用数据挖掘算法对预测结果进行数据挖掘,得到每个样本对应的价值得分;S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集;S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集,训练得到本轮迭代模型;S50.将价值样本集中剩余价值样本作为迭代待筛选数据池,采用本轮迭代模型对迭代待筛选数据池做前向预测;S60.返回步骤S20,直至迭代待筛选数据池中只剩下无价值样本或价值很小样本,得到最终迭代模型以及最终迭代数据集。2.根据权利要求1所述的一种驾驶场景数据挖掘方法,其特征在于,步骤S10具体包括:S101.获取原始图像序列,采用图像去重算法对其进行去重得到去重数据集;S102.从去重数据集中挑选部分样本作为初始数据集,训练得到初始模型;S103.将去重数据集中剩余样本作为待筛选数据池,采用初始模型对待筛选数据池做前向预测。3.根据权利要求2所述的一种驾驶场景数据挖掘方法,其特征在于,步骤S101具体包括:S1011.对原始图像序列中的每张图片样本提取其特征向量;S1012.根据特征向量计算任意一张图片样本与所有图片样本之间的相似度;S1013.判断相似度得分是否超过预设阈值,若是,删除相似度超过预设阈值的图片样本,得到去重数据集。4.根据权利要求3所述的一种驾驶场景数据挖掘方法,其特征在于,所述图像去重算法基于神经网络,步骤S101具体为:采用CNN网络对原始数据集中的每张图片样本提取其1024维特征向量。5.根据权利要求3所述的一种驾驶场景数据挖掘方法,其特征在于,所述相似度的度量指标为两个特征向量之间的归一化内积值;所述相似度通过以下公式计算:K(X,Y)=(X,Y)/(||X||*||Y||);其中,K表示相似度得分,X、Y表示1024维特征向量,(X,Y)表示向量内积,||X||、||Y||表示向量模。6.根据权利要求1所述的一种驾驶场景数据挖掘方法,其特征在于,所述数据挖掘算法基于多模型对比数据挖掘,即,所述数据挖掘算法至少基于计算规模或者模型结构设计不同的第一模型和第二模型,步骤S20具体为:S201.将预测结果分别输入到第一模型和第二模型,得到相对应的第一检测结果和第二检测结果;S202.对第一检测结果和第二...

【专利技术属性】
技术研发人员:徐倩贾楠杨鑫
申请(专利权)人:惠州市德赛西威汽车电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1