本发明专利技术公开了基于智能网联车辆行车数据的通勤场景识别方法及系统,涉及通勤场景识别领域,方法基于智能网联平台车辆历史数据,通过抽取多个维度的特征构建组合模型,进而形成网联车主用户的通勤场景判定模型,并将该模型部署在启明车联网平台。通过已标注出的车主用户的家和单位地址,以及通勤的时间点,判定用户是否处于通勤场景并进行相关的智能消息推荐。本发明专利技术成功实现了基于智能网联车辆行车数据进行用户的通勤场景识别,并且识别准确率达80%以上,将车载终端数据成功进行场景化应用,为汽车行业基于通勤场景的智能化应用提供了技术支撑,全面提升汽车行业用户服务的信息化和智能化水平。和智能化水平。和智能化水平。
【技术实现步骤摘要】
基于智能网联车辆行车数据的通勤场景识别方法及系统
[0001]本专利技术涉及场景识别
,尤其涉及一种基于智能网联车辆行车数据的通勤场景识别方法及系统。
技术介绍
[0002]随着科技的进步,大数据及AI技术在各领域的应用深化,车联网领域的智能化、场景化应用也渐近成为行业主流。场景识别的覆盖程度、精确度和精细度,已成为用户用车体验提升的关键。当前智能汽车的服务场景越来越丰富,体系化、系统化地进行汽车使用过程的场景认知,以支持场景化的智能服务设计和实现,是智能网联汽车研发中要解决的重要问题。
[0003]围绕车联网大数据的分析与应用涌现出很多的创新方法,为后向的服务与体验提升奠定了一定的基础。而在车辆智能服务场景识别中,针对生活出行场景的识别覆盖率、精准度、体系化等方面均有待深入。
[0004]业界当前做法是针对服务场景,拼接规则,当触发一定的规则,即认为识别到场景状态,根据配置好的场景规则进行后向的服务推荐。
[0005]在现有的基于车辆网的推荐系统中,主要是基于用户的兴趣爱好特征进行个性化推荐,因不能直接获取用户家和单位的地址以及通勤时间,所以缺乏通勤场景的应用。为丰富车联网智能化场景化应用,如何精准高效地进行用户通勤场景识别是目前亟待解决的技术问题。
技术实现思路
[0006]本专利技术的目的在于克服现有技术的不足,提供一种基于智能网联车辆行车数据的通勤场景识别方法及系统,基于智能网联平台车辆历史数据,通过抽取多个维度的特征构建组合模型,进而形成网联车主用户的通勤场景判定模型,并将该模型部署在启明车联网平台。通过已标注出的车主用户的家和单位地址,以及通勤(上下班)的时间点,判定用户是否处于通勤场景并进行相关的智能消息推荐。
[0007]本专利技术的目的是通过以下技术方案来实现的:基于智能网联车辆行车数据的通勤场景识别方法,包括:步骤一:根据车况数据,利用车辆经纬度标注工具进行数据标注,识别出用户的住址和公司地址;步骤二:对智能网联平台车辆历史数据进行预处理,对车辆TBOX上传数据进行时间序列的处理和对地理位置进行10位Pluscode编码处理,最终形成16个指标,构成模型的指标体系;步骤三:采用箱线图、对比分析技术对预处理后的智能网联平台车辆历史数据进行特征工程处理,获取数据的价值信息并筛选出与分类结果相关性相对较强的关键指标作为模型自变量;
步骤四:基于处理后的样本数据,采用梯度提升决策树算法,运用Python工具构建分类模型进行训练;步骤五:采用AUC评估指标对分类模型的分类效果进行评价;步骤六:将分类模型部署在车联网平台进行通勤场景识别。
[0008]具体的,所述步骤一具体包括以下步骤:S11,采集样本车况数据,从TBOX上报的历史车况数据中,输出离线文件;S12,对样本数据进行打标签,利用高德地图开发数据标记程序,对车辆行驶轨迹进行自动打点,提取出用户的住址和公司的位置信息。
[0009]具体的,所述步骤二具体包括以下步骤:S21,根据步骤一中标注好的数据,输出包含经纬度和时间的车况数据;S22,使用Python工具的Openlocationcode算法库,对经纬度进行Pluscode编码处理,使得位置维度涵盖实际的车辆起停位置的随机性;S23,将数据按照时间正序排列,计算相邻元素的时间间隔,设定间隔阈值,从而判断停靠点、出发点,得到停靠时间和行驶时间;S24,使用Python工具的Numpy、Chinese_Calendar算法库,进行数据处理和计算,最终得到30日在工作日停靠的次数、20日在工作时间内的占比、10日停靠时间均值;S25,对于连续多天停靠一个地点的情况,构造特征权重函数进行异常处理,并删除异常值。
[0010]具体的,所述步骤三具体包括以下步骤:S31,数据整理,将步骤一标注好的数据作为模型因变量,将步骤二预处理后的16个指标数据作为自变量,对数据集进行汇总,并对于当前停靠点是公司地址的标注为1,非公司地址的标注为0;S32,数据探索,基于Python工具的Numpy、Pandas及Seaborn等算法库,通过对比分析、绘制箱线图等技术手段对数据进行探索性分析,探索各个指标可能存在的价值信息;S33,特征筛选,选取与因变量相关性较强的6个关键指标作为模型的特征变量。
[0011]具体的,所述步骤四具体包括以下步骤:S41,数据集切分,将步骤三中筛选出的特征变量作为样本数据集,基于Python工具的Random算法库将数据集随机切分为训练集和测试集,其中训练集和测试集分别占比70%和30%;S42,类别不平衡处理,采用Python工具的EasyEnsemble算法库随机抽取生成10个子样本;S43,模型构建,基于上述10个子样本数据集,采用梯度提升决策树GBDT算法,运用Python工具的XGboost算法库生成10个基分类器,最终对10个基分类器结果进行加权组合,构建用户通勤场景识别模型;S44,模型调参:运用Python工具的GridSearchCV算法库,对模型参数进行调优。
[0012]具体的,所述步骤五具体包括以下步骤:S51,模型预测:将测试集数据带入到用户通勤场景识别模型中进行计算;S52,效果评估:基于分类模型的AUC评估指标,采用Python工具的Sklearn算法库,最终计算得出用户通勤场景识别模型在测试集上的分类准确率;
S53,模型保存:运用Python工具的Pickle算法库将构建好的用户通勤场景识别模型进行保存。
[0013]具体的,所述步骤六具体包括以下步骤:S61,将训练好的用户通勤场景识别模型计算的结果存储到用户画像表中;S62,结合实时的车况数据,获取匹配结果进行用户通勤场景的智能推荐提醒。
[0014]基于智能网联车辆行车数据的通勤场景识别系统,采用上述的基于智能网联车辆行车数据的通勤场景识别方法实现,包括数据标注模块,用于根据车况数据,利用车辆经纬度标注工具进行数据标注,识别出用户的住址和公司地址;数据预处理模块,用于对智能网联平台车辆历史数据进行预处理,对车辆TBOX上传数据进行时间序列的处理和对地理位置进行10位Pluscode编码处理,最终形成16个指标,构成模型的指标体系;特征工程处理模块,用于采用箱线图、对比分析技术对预处理后的智能网联平台车辆历史数据进行特征工程处理,获取数据的价值信息,并根据预设的相关性阈值筛选出与分类结果相关性相对较强的关键指标作为模型自变量;模型训练模块,基于特征工程处理后的样本数据,采用梯度提升决策树算法,运用Python工具构建分类模型进行训练;效果评价模块,采用AUC评估指标对分类模型的分类效果进行评价;模型部署模块,将分类模型部署在车联网平台进行通勤场景识别。
[0015]本专利技术的有益效果:1、实现了车联网领域的智能化、场景化应用,本专利技术成功实现了基于智能网联车辆行车数据进行用户的通勤场景识别,并且识别准确率达80%以上,将车载终端数据成功进行场景化应用;2、本专利技术将车联网技术与大数据技术进行有效结合,运用Spark大数据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于智能网联车辆行车数据的通勤场景识别方法,其特征在于,包括:步骤一:根据车况数据,利用车辆经纬度标注工具进行数据标注,识别出用户的住址和公司地址;步骤二:对智能网联平台车辆历史数据进行预处理,对车辆TBOX上传数据进行时间序列的处理和对地理位置进行10位Pluscode编码处理,最终形成16个指标,构成模型的指标体系;步骤三:采用箱线图、对比分析技术对预处理后的智能网联平台车辆历史数据进行特征工程处理,获取数据的价值信息并筛选出与分类结果相关性相对较强的关键指标作为模型自变量;步骤四:基于特征工程处理后的样本数据,采用梯度提升决策树算法,运用Python工具构建分类模型进行训练;步骤五:采用AUC评估指标对分类模型的分类效果进行评价;步骤六:将分类模型部署在车联网平台进行通勤场景识别。2.根据权利要求1所述的基于智能网联车辆行车数据的通勤场景识别方法,其特征在于,所述步骤一具体包括以下步骤:S11,采集样本车况数据,从TBOX上报的历史车况数据中,输出离线文件;S12,对样本数据进行打标签,利用高德地图开发数据标记程序,对车辆行驶轨迹进行自动打点,提取出用户的住址和公司的位置信息。3.根据权利要求1所述的基于智能网联车辆行车数据的通勤场景识别方法,其特征在于,所述步骤二具体包括以下步骤:S21,根据步骤一中标注好的数据,输出包含经纬度和时间的车况数据;S22,使用Python工具的Openlocationcode算法库,对经纬度进行Pluscode编码处理,使得位置维度涵盖实际的车辆起停位置的随机性;S23,将数据按照时间正序排列,计算相邻元素的时间间隔,设定间隔阈值,从而判断停靠点、出发点,得到停靠时间和行驶时间;S24,使用Python工具的Numpy、Chinese_Calendar算法库,进行数据处理和计算,最终得到30日在工作日停靠的次数、20日在工作时间内的占比、10日停靠时间均值;S25,对于连续多天停靠一个地点的情况,构造特征权重函数进行异常处理,并删除异常值。4.根据权利要求1所述的基于智能网联车辆行车数据的通勤场景识别方法,其特征在于,所述步骤三具体包括以下步骤:S31,数据整理,将步骤一标注好的数据作为模型因变量,将步骤二预处理后的16个指标数据作为自变量,对数据集进行汇总,并对于当前停靠点是公司地址的标注为1,非公司地址的标注为0;S32,数据探索,基于Python工具的Numpy、Pandas及Seaborn等算法库,通过对比分析、绘制箱线图等技术手段对数据进行探索性分析,探索各个指标可能存在的价值信息;S33,特征筛选,选取与因变量相关性较强的6个关键指标作为模型的特征变...
【专利技术属性】
技术研发人员:郭彧,宋迎亮,张丽影,吕冬雪,
申请(专利权)人:启明信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。