地址标准化模型群、构建方法及其应用技术

技术编号:34182895 阅读:17 留言:0更新日期:2022-07-17 13:31
本申请提出了一种地址标准化模型群、构建方法及其应用,包括以下步骤:搭建地址标准化模型群,所述地址标准化模型群由对应不同行政区划级别的区划标准化模型组成,利用详细标准地址及对应的行政区划地名为训练样本对地址标准化模型群进行训练,该地址标准化模型群区别于现有技术很大的不同在于便于后期对区划标准化模型的维护,灵活应对行政区划变更的情况。况。况。

Address standardization model group, construction method and Application

【技术实现步骤摘要】
地址标准化模型群、构建方法及其应用


[0001]本申请涉及数据处理领域,特别涉及一种地址标准化模型群、构建方法及其应用。

技术介绍

[0002]地址信息指的是个体或者固定场所的居住、通信地点,其在城市规划管理中起着举足轻重的作用,通过识别特定场所或个体的地址信息就可以定位其在城市中所处的地理位置。然而由于个人表达习惯的不同,导致即使是以行政区划表达的地址信息在表达上也存在偏差。比如同样是表达“北京博物馆”的地址信息,有些人会详尽地记录地址信息为“北京市东城区景山前街4号”,而有些人则可能会记录地址信息为“北京市景山前街4号”,或者东城区景山前街4号。
[0003]目前大部分地址标准化模型采用的手段是:通过字典表或数据库识别地址信息的关键词来标准化处理地址信息,然而这种手段的识别准确度完全依赖于字典表和数据库的内容,一旦出现字典表或数据库内未曾记录的关键词则只会返回空的结果。另外,单一的地址标准化模型也存在训练压力大以及不灵活的问题,具体体现在:为了让单一地址标准化模型准确识别地址信息,则需要输入大量完整行政区划的地址信息进行训练,且地址标准化模型需要同时识别多个行政区划;一旦行政区划发生变动就需要对单一地址标准化模型进行重新训练,导致后期维护与迭代开发的时间成本和硬件成本都很大,无法对业务侧的变动进行及时的响应。

技术实现思路

[0004]本申请实施例提供了一种地址标准化模型群、构建方法及其应用,所述地址标准化模型群由多个对应不同区划级别的区划标准化模型组成,逐级对地址信息进行标准化识别,减轻单一模型的训练成本的同时提高了应用灵活性,可更为灵活地应对行政区划变动的情况,降低重新训练整个模型的硬件成本与时间成本,能够实现对老模型的快速迭代。
[0005]第一方面,本申请实施例提供了一种地址标准化模型群的构建方法,所述方法包括:搭建地址标准化模型群,其中所述地址标准化模型群由多个区划标准化模型组成,其中不同区划标准化模型对应不同行政区划级别;获取至少一标准详细地址,其中所述标准详细地址由不同行政区划级别对应的行政区划地名组成;依据所述行政区划级别的级别顺序遍历训练所有区划标准化模型,选择被上级行政区划级别分类的所述标准详细地址和当前行政区划级别对应的行政区划地名作为训练样本,所述训练样本输入到对应所述当前行政区划级别的区划标准化模型中进行训练。
[0006]第二方面,本申请实施例提供了一种地址标准化模型群,根据上述构建方法构建得到。
[0007]第三方面,本申请实施例提供了一种地址标准化方法,包括:获取待转换地址信息;将所述待转换地址信息输入到如上所述的地址标准化模型群中,每一区划标准化模型输出对应行政区划级别的行政区划地名,依据所述行政区划级别的层级关系组合形成标准
地址。
[0008]第四方面,本申请实施例提供了一种地址标准化装置,包括:获取单元,用于获取待转换地址信息;标准化处理单元,用于将所述待转换地址信息输入到如上所述的训练得到的地址标准化模型群中,每一区划标准化模型输出对应行政区划级别的行政区划地名,依据所述行政区划级别的层级关系组合形成标准地址。
[0009]第五方面,本申请实施例提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如上所述的地址标准化模型群的构建方法。
[0010]第六方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据所述的地址标准化模型群的构建方法。
[0011]本专利技术的主要贡献和创新点如下:
[0012]本申请实施例取代了传统关键词识别的方式,提供了除开访问字典或地址库之外的深度学习训练方案,利用深度学习算法将非标准化的地址信息标准化,无需额外读取带有相关地址信息表,减少因无法做出地址配对导致的高空值率。另外,本方案采用逐级关联的区划标准化模型组成的地址标准化模型来实现对地址信息的标准化,减轻单一地址模型的训练压力,且更为灵活地适应行政区划的变动。
[0013]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0014]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0015]图1是根据本申请实施例的地址标准化模型群的构建方法的流程图;
[0016]图2是根据本申请实施例的地址标准化的流程图;
[0017]图3是根据本申请实施例的地址标准化模型群的构建装置的结构框图;
[0018]图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0019]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0020]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0021]实施例一
[0022]本申请旨在提出一种地址标准化模型群、构建方法及应用,该地址标准化模型群由多个逐级关联的区划标准化模型组成,其中不同区划标准化模型对应不同级别的区划,通过不同区划标准化模型的识别结果标准化输入的地址信息。
[0023]本申请实施例提供了一种地址标准化模型群的构建方法,具体地,参考图1,所述方法包括:
[0024]搭建地址标准化模型群,其中所述地址标准化模型群由多个区划标准化模型组成,其中不同区划标准化模型对应不同行政区划级别;
[0025]获取至少一标准详细地址,其中所述标准详细地址由不同行政区划级别对应的行政区划地名组成;
[0026]依据所述行政区划级别的级别顺序遍历训练所有区划标准化模型,选择被上级行政区划级别分类的所述标准详细地址和当前行政区划级别对应的行政区划地名作为训练样本,所述训练样本输入到对应所述当前行政区划级别的区划标准化模型中进行训练。
[0027]行政区划是国家为了便于行政管理而分级划分的区域。我国的行政区划可分为省级行政区、地级行政区、县级行政区以及乡级行政区,其中省级行政区包括省、自治区、直辖市、特别行政区;地级行政区包括:地级市、自治州;县级行政区又包括市辖区、县、自治县、旗、自治旗、林区、特区;乡级行政区包括镇、乡、民本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址标准化模型群的构建方法,其特征在于,包括以下步骤:搭建地址标准化模型群,其中所述地址标准化模型群由多个区划标准化模型组成,其中不同区划标准化模型对应不同行政区划级别;获取至少一标准详细地址,其中所述标准详细地址由不同行政区划级别对应的行政区划地名组成;依据所述行政区划级别的级别顺序遍历训练所有区划标准化模型,选择被上级行政区划级别分类的所述标准详细地址和当前行政区划级别对应的行政区划地名作为训练样本,所述训练样本输入到对应所述当前行政区划级别的区划标准化模型中进行训练。2.根据权利要求1所述的地址标准化模型群的构建方法,其特征在于,在遍历训练所有区划标准化模型之前包括步骤:构建特征筛选模型,所述特征筛选模型包括特征提取模块、约束收敛模块以及样本选择器;将所述标准详细地址及对应每一所述标准详细地址的行政区划地名输入到所述特征提取模块中,分别得到地址向量集合和标签向量集合,将所述地址向量集合和所述标签向量集合输入到所述约束收敛模块,得到模型输出值;将所述模型输出值输入到所述样本选择器中进行选择,筛选得到具有代表性的标准详细地址及对应的行政区划地名。3.根据权利要求1所述的地址标准化模型群的构建方法,其特征在于,在“选择被上级行政区划级别分类的所述标准详细地址和当前行政区划级别对应的行政区划地名作为训练样本”步骤中,若不存在上级行政区划级别,选择所述标准详细地址和当前行政区划级别对应的行政区划地名作为训练样本。4.根据权利要求1所述的地址标准化模型群的构建...

【专利技术属性】
技术研发人员:毛云青卓家雨王国梁
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1