基于大数据的道路识别方法、装置、计算机设备及可读介质制造方法及图纸

技术编号:38201577 阅读:10 留言:0更新日期:2023-07-21 16:44
本发明专利技术公开了一种基于大数据的道路识别方法、装置、计算机设备及可读介质,该方法包括:获取待处理的地址文本;确定所述地址文本中的多个词及所述词对应的地址层级;根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列;将所述拼接向量序列输入已训练好的道路预测模型中,得到所述地址文本对应的道路数据;本发明专利技术基于深度学习技术进行道路的预测,可提高对道路识别的泛化能力及准确性,从而节约整个物流的成本开支。而节约整个物流的成本开支。而节约整个物流的成本开支。

【技术实现步骤摘要】
基于大数据的道路识别方法、装置、计算机设备及可读介质


[0001]本专利技术属于物流
,更具体地,涉及一种基于大数据的道路识别方法、装置、计算机设备及可读介质。

技术介绍

[0002]在完整的物流配送体系中,道路是配送地址中非常重要的一个信息维度。根据快件地址准确地识别出道路是非常关键的一环。然而,有些客户在下单时能够提供清晰规范的地址,但还存在部分用户无法提供规范的地址,存在地址信息部分缺失、冲突、有误等情况,导致快递员无法直接从客户的下单地址中提取出有效的道路数据,影响后续的派件业务。
[0003]目前常用的解决方案是根据已有地址建立并维护白名单地址库(词典),当获取客户提供的地址后,使用词典进行道路词组匹配,这种识别方法准确率低,且需要人工去实时维护更新词典,维护成本高。

技术实现思路

[0004]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种基于大数据的道路识别方法、装置、计算机设备及可读介质,能提高道路识别准确率,且不需要人工维护。
[0005]为实现上述目的,按照本专利技术的第一个方面,提供了一种基于大数据的道路识别方法,该方法包括:
[0006]获取待处理的地址文本;
[0007]确定所述地址文本中的多个词及所述词对应的地址层级;
[0008]根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列;
[0009]将所述拼接向量序列输入已训练好的道路预测模型中,得到所述地址文本对应的至少一个道路数据,其中,所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到,所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。
[0010]在一些实施例中,在确定所述地址文本中的词及所述词对应的地址层级之后,还包括:
[0011]从多个所述词中确定与第一目标地址层级对应的词,作为第一目标词,所述第一目标地址层级包括道路对应的地址层级、以及与所述道路对应的地址层级前后相邻的预设个地址层级;
[0012]确定所述第一目标词逐字生成的字、以及所述字对应的地址层级;
[0013]所述根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:根据所述字、所述词和所述地址层级,生成所述地址文本对应的拼接向量序列。
[0014]在一些实施例中,所述根据所述字、所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:
[0015]对所述词及所述地址层级进行向量化处理,得到词向量和对应的地址层级向量,
并对所述字及所述字对应的地址层级进行向量化处理,得到字向量和对应的地址层级向量;
[0016]根据所述词向量和对应的所述地址层级向量生成第一拼接向量序列,并根据所述字向量和对应的所述地址层级向量生成第二拼接向量序列;
[0017]将所述第一拼接向量序列和所述第二拼接向量序列进行组合,得到所述地址文本对应的拼接向量序列。
[0018]在一些实施例中,在确定所述地址文本中的多个词及所述词对应的地址层级之后,还包括:
[0019]从多个所述词中确定位于第二目标地址层级之前的地址层级对应的词,作为第二目标词,所述第二目标地址层级为位于道路对应的地址层级之前且相隔预设位的地址层级;从多个所述词中删除所述第二目标词;
[0020]所述根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:根据删除后剩余的所述词和所述地址层级,生成所述地址文本对应的拼接向量序列。
[0021]在一些实施例中,在确定所述地址文本中的多个词及所述词对应的地址层级之前,还包括:
[0022]对所述地址文本进行规范化处理;
[0023]所述确定所述地址文本中的多个词及所述词对应的地址层级,包括:确定规范化处理后的所述地址文本中的多个词及所述词对应的地址层级。
[0024]在一些实施例中,在确定所述地址文本中的多个词及所述词对应的地址层级之前,还包括:
[0025]将所述地址文本与预先配置的白名单地址库中的地址进行匹配,所述白名单地址库用于存储模型预测出错的地址文本、及所述预测出错的地址文本对应的道路词组之间的关联关系,匹配成功则根据所述关联关系确定所述地址文本对应的道路词组,匹配失败则执行所述确定所述地址文本中的多个词及所述词对应的地址层级的步骤。
[0026]在一些实施例中,所述道路预测模型的训练过程包括:
[0027]获取第一样本地址文本集合,所述第一样本地址文本集合中每个第一样本地址文本具有至少一个道路数据标签;
[0028]确定所述第一样本地址文本中的多个样本词及所述样本词对应的地址层级;
[0029]根据所述样本词和所述地址层级,生成所述第一样本地址文本对应的样本拼接向量序列;
[0030]根据所述样本拼接向量序列与所述道路数据标签得到第一训练样本,并将各个所述第一训练样本汇总形成第一训练样本集;
[0031]根据所述第一训练样本集进行模型训练,得到训练好的道路预测模型。
[0032]按照本专利技术的第二个方面,还提供了一种基于大数据的道路识别装置,该装置包括:
[0033]获取模块,用于获取待处理的地址文本;
[0034]向量生成模块,用于确定所述地址文本中的多个词及所述词对应的地址层级;根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列;
[0035]预测模块,用于将所述拼接向量序列输入已训练好的道路预测模型中,得到所述
地址文本对应的道路数据,其中,所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到,所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。
[0036]按照本专利技术的第三个方面,还提供了一种计算机设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述方法的步骤。
[0037]按照本专利技术的第四个方面,还提供了一种计算机可读介质,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述任一项所述方法的步骤。
[0038]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0039](1)本专利技术提供的一种基于大数据的道路识别方法、装置、计算机设备及可读介质,获取待处理的地址文本后,确定地址文本中的多个词及词对应的地址层级,并根据词和地址层级,生成地址文本对应的拼接向量序列;将拼接向量序列输入已训练好的道路预测模型中,得到地址文本对应的道路数据;通过该训练好的道路预测模型对地址文本进行处理,能够快速而准确地识别地址文本中缺失或错误的道路数据,并且能够提高对道路识别的泛化能力及准确性。
[0040](2)本方案可应用于任何有地址预测道路词组的需求的场景中,可与传统的匹配算法形成互补,增加整个系统对道路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的道路识别方法,其特征在于,包括:获取待处理的地址文本;确定所述地址文本中的多个词及所述词对应的地址层级;根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列;将所述拼接向量序列输入已训练好的道路预测模型中,得到所述地址文本对应的至少一个道路数据,其中,所述道路预测模型为利用具有道路数据标签的样本地址文本集合训练得到,所述样本地址文本集合中的每个样本地址文本具有一个道路数据标签。2.如权利要求1所述的基于大数据的道路识别方法,其特征在于,在确定所述地址文本中的词及所述词对应的地址层级之后,还包括:从多个所述词中确定与第一目标地址层级对应的词,作为第一目标词,所述第一目标地址层级包括道路对应的地址层级、以及与所述道路对应的地址层级前后相邻的预设个地址层级;确定所述第一目标词逐字生成的字、以及所述字对应的地址层级;所述根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:根据所述字、所述词和所述地址层级,生成所述地址文本对应的拼接向量序列。3.如权利要求2所述的基于大数据的道路识别方法,其特征在于,所述根据所述字、所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:对所述词及所述地址层级进行向量化处理,得到词向量和对应的地址层级向量,并对所述字及所述字对应的地址层级进行向量化处理,得到字向量和对应的地址层级向量;根据所述词向量和对应的所述地址层级向量生成第一拼接向量序列,并根据所述字向量和对应的所述地址层级向量生成第二拼接向量序列;将所述第一拼接向量序列和所述第二拼接向量序列进行组合,得到所述地址文本对应的拼接向量序列。4.如权利要求1所述的基于大数据的道路识别方法,其特征在于,在确定所述地址文本中的多个词及所述词对应的地址层级之后,还包括:从多个所述词中确定位于第二目标地址层级之前的地址层级对应的词,作为第二目标词,所述第二目标地址层级为位于道路对应的地址层级之前且相隔预设位的地址层级;从多个所述词中删除所述第二目标词;所述根据所述词和所述地址层级,生成所述地址文本对应的拼接向量序列,包括:根据删除后剩余的所述词和所述地址层级,生成所述地址文本对应的拼接向量序列。5.如权利要求1所述的基于大数据的道路识别方法,其特征在于,在确定所述地址文本中的多个词及所述词对应的...

【专利技术属性】
技术研发人员:张定棋周训飞王小龙
申请(专利权)人:丰图科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1