一种基于深度学习的地址分类方法及系统技术方案

技术编号:37045567 阅读:24 留言:0更新日期:2023-03-29 19:24
本发明专利技术公开了一种基于深度学习的地址分类的方法,该方法通过地址维度数据去重模块对运单地址数据中完全相同的地址进行去重,获取签收地址数据;通过地址数据多任务目标值构造模块用于构造每条签收地址数据对应的多任务的目标值,获取多任务数据;通过BERT模型多任务向量编码器模块用于对将多任务数据进行地址数据向量化表示,并获得训练后的BERT模型参数;通过模型部署推断模块用于将BERT模型参数带入BERT模型结构中,并部署到web服务中提供线上的推断服务。本发明专利技术多任务数据的构造,通过预测三段码派送区域的基础上加入预测第四级行政区划,从而提升三段码的分类准确率,同时具备预测第四级行政区划能力,提升物流的分拣效率,节约了人工成本。节约了人工成本。节约了人工成本。

【技术实现步骤摘要】
一种基于深度学习的地址分类方法及系统


[0001]本专利技术属于计算机应用领域,尤其涉及到一种基于深度学习的地址分类方法及系统。

技术介绍

[0002]当前智能化越来越成为时代的关键词互联网、物联网、大数据、人工智能等技术不断发展给多个行业带来创新的推动力,所谓智能物流是指通过先进的物流网技术实现物资运输过程的自动化运作和高效化管理.物流行业的智能化对于中国物流行业提高利润、降低物流成本具有积极的推动作用。而作为智能物流的核心组成部分,“三段码”由三段编码构成:一段码(转运中心)+二段码(独立网点)+三段码(派送区域)。一二三段码是通过对转运中心、独立网点和派送区域进行编码。
[0003]目前现有的技术三段码派送区域预测任务和第四级行政区预测任务的数据、模型、结果均为相互独立的,使得模型训练、推理时浪费了很多的计算资源、训练和推理的时间,且由于相互独立,两个任务的结果无法相互促进结果。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术中存在的不足,提供一种基于深度学习的地址分类方法及系统,本专利技术的方法及系统通过多任务数据的构造,通过预测三段码派送区域的基础上加入预测第四级行政区划,从而提升三段码的分类准确率,同时具备预测第四级行政区划能力,提升物流的分拣效率,节约了人工成本。
[0005]为了实现上述专利技术目的,本专利技术专利提供的技术方案如下:
[0006]一种基于深度学习的地址分类的方法,该方法具体包括如下步骤:
[0007]第一步,数据预处理,对所有运单地址数据进行筛选处理并去重得到签收地址数据;
[0008]第二步,多任务数据构造,多任务数据包括签收地址数据、三段码派送区域目标值和地址第四级行政区目标值,通过签收地址数据关联对应的三段码派送区域目标值和地址第四级行政区目标值构造并获取多任务数据;
[0009]第三步,将所述第二步中的多任务数据带入BERT模型中进行编码并使用模型优化器进行优化训练,获得训练后的BERT模型参数;
[0010]第四步,模型部署推断,使用Nvidia提供的推理工具Triton写出BERT模型的模型结构,并将所述第三步中获取的BERT模型参数带入BERT模型结构中,并部署到web服务中提供线上的推断服务。
[0011]上述第一步中运单地址数据筛选处理并去重的具体步骤为:将运单地址数据中的汉字、英文字母和阿拉伯数字筛选保留,去除运单地址数据中其余的特殊字符,并将筛选后的运单数据中含有相同地址数据进行去重,保留签收时间与当前时间最相近的地址信息;从而获得签收地址数据。
[0012]上述第二步中三段码派送区域目标值包括一段码、二段码和三段码,所述一段码为快递所在转运中心编码,所述二段码为快递所在独立网点编码,所述三段码为快递派件区域编码;所述三段码派送区域目标值为快递员或独立网点签收快递时回写获得。
[0013]上述地址第四级行政区目标值包括省第一级行政区划、市第二级行政区划、区第三级行政区划和乡镇第四级行政区划;所述地址第四级行政区目标值为快递员签收快递时时获取的经纬度信息定位到具体的第四级行政区而获得。
[0014]上述多任务数据获取的具体步骤为:将运单地址数据中心的签收地址数据提取并关联出对应的三段码派送区域目标值和地址第四级行政区目标值,并将签收地址数据和与之对应的三段码派送区域目标值和地址第四级行政区目标值使用tab分隔,获取多任务数据,重复上述步骤,获取所有签收地质数据的多任务数据,并形成txt文本数据。
[0015]上述第三步中BERT模型参数获取的具体步骤为:将获取的多任务数据的txt文本数据带入BERT模型进行编码并对txt文本数据进行地址数据向量化表示,并使用模型优化器优化,使多任务数据在BERT模型中进行收敛和拟合,从而获取BERT模型参数。
[0016]上述多任务数据在BERT模型中进行收敛和拟合的具体步骤为:将数据向量预测到三段码派送区域任务,得到损失值Loss1,将数据向量预测到地址第四级行政区任务,得到损失值Loss2,将损失值Loss1和损失值Loss2相加得到多任务数据的总损失值Loss,实现多任务同时训练,并使用模型优化器优化BERT模型的权重,收敛和拟合BERT模型,完成BERT模型的训练。
[0017]一种基于深度学习的地址分类系统,该系统包括地址维度数据去重模块、地址数据多任务目标值构造模块、BERT模型多任务向量编码器模块、多任务池化分类模块和模型部署推断模块;
[0018]所述地址维度数据去重模块用于对运单地址数据中完全相同的地址进行去重,获取签收地址数据;
[0019]所述地址数据多任务目标值构造模块用于构造每条签收地址数据对应的多任务的目标值,获取多任务数据;
[0020]所述BERT模型多任务向量编码器模块用于对将多任务数据进行地址数据向量化表示,并获得训练后的BERT模型参数;
[0021]所述多任务池化分类模块用于将地址向量分别并行经过两个池化分类层,分别得到三段码派送区域任务结果和第四级行政区结果;
[0022]所述模型部署推断模块用于将BERT模型参数带入BERT模型结构中,并部署到web服务中提供线上的推断服务。
[0023]上述多任务池化分类模块在BERT模型中设置的两个池化分类层分别将获取的地址向量进行矩阵计算分别获得三段码派送区域任务结果向量和第四级行政区结果向量。
[0024]基于上述技术方案,本专利技术专利一种基于深度学习的地址分类方法及系统经过实践应用取得了如下技术优点:
[0025]1.本专利技术一种基于深度学习的地址分类方法通过多任务数据的构造,通过预测三段码派送区域的基础上加入预测第四级行政区划,从而提升三段码的分类准确率,同时具备预测第四级行政区划能力,提升物流的分拣效率,节约了人工成本。
[0026]2.本专利技术一种基于深度学习的地址分类方法通过采用深度学习和三段码、第四级
地址行政区划预测等多个任务相结合的技术实现了多个任务自动学习,提升了模型训练的准确率,训练一个模型同时完成两项任务提高了模型线下训练和线上推理的效率;能够在提升三段码预测准确率的基础上,解决四级行政区划预测,从而达到地址补全和地址清洗的作用。
[0027]3.本专利技术一种基于深度学习的地址分类方法通过多个任务同时训练、推理,其中的三段码任务是在网点派送区域上的业务层面预测任务,四级行政区划是国家行政区域层面的预测任务,同一个地址同时在两个不同层面上进行预测,且这两个任务相互之间有相互关联关系,相互促进了对方的拟合程度,这大大提升了三段码的准确率。
[0028]4.本专利技术一种基于深度学习的地址分类方法在预测三段码的基础上加入四级行政区划的预测能力,使模型具备地址补全、地址清洗的能力;能够节省公司的GPU硬件成本,提高公司竞争力。
附图说明
[0029]图1是本专利技术一种基于深度学习的地址分类方法中的地址分类流程图。
具体实施方式
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的地址分类的方法,其特征在于,该方法具体包括如下步骤:第一步,数据预处理,对所有运单地址数据进行筛选处理并去重得到签收地址数据;第二步,多任务数据构造,多任务数据包括签收地址数据、三段码派送区域目标值和地址第四级行政区目标值,通过签收地址数据关联对应的三段码派送区域目标值和地址第四级行政区目标值构造并获取多任务数据;第三步,将所述第二步中的多任务数据带入BERT模型中进行编码并使用模型优化器进行优化训练,获得训练后的BERT模型参数;第四步,模型部署推断,使用Nvidia提供的推理工具Triton写出BERT模型的模型结构,并将所述第三步中获取的BERT模型参数带入BERT模型结构中,并部署到web服务中提供线上的推断服务。2.根据权利要求1所述的一种基于深度学习的地址分类的方法,其特征在于,所述第一步中运单地址数据筛选处理并去重的具体步骤为:将运单地址数据中的汉字、英文字母和阿拉伯数字筛选保留,去除运单地址数据中其余的特殊字符,并将筛选后的运单数据中含有相同地址数据进行去重,保留签收时间与当前时间最相近的地址信息;从而获得签收地址数据。3.根据权利要求1所述的一种基于深度学习的地址分类的方法,其特征在于,所述第二步中三段码派送区域目标值包括一段码、二段码和三段码,所述一段码为快递所在转运中心编码,所述二段码为快递所在独立网点编码,所述三段码为快递派件区域编码;所述三段码派送区域目标值为快递员或独立网点签收快递时回写获得。4.根据权利要求1所述的一种基于深度学习的地址分类的方法,其特征在于,所述地址第四级行政区目标值包括省第一级行政区划、市第二级行政区划、区第三级行政区划和乡镇第四级行政区划;所述地址第四级行政区目标值为快递员签收快递时时获取的经纬度信息定位到具体的第四级行政区而获得。5.根据权利要求1所述的一种基于深度学习的地址分类的方法,其特征在于,所述多任务数据获取的具体步骤为:将运单地址数据中心的签收地址数据提取并关联出对应的三段码派送区域目标值和地址第四级行政区目标值,并将签收地址数据和与之对应的三段码派送区域目标值和地址第四...

【专利技术属性】
技术研发人员:倪嘉辉林嘉华姜东晓
申请(专利权)人:上海捷晓信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1