地址信息的处理方法和装置制造方法及图纸

技术编号:25802566 阅读:28 留言:0更新日期:2020-09-29 18:36
本申请公开了一种地址信息的处理方法和装置。其中,该方法包括:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。本申请解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。

【技术实现步骤摘要】
地址信息的处理方法和装置
本申请涉及数据处理领域,具体而言,涉及一种地址信息的处理方法和装置。
技术介绍
在日常生活中,人们对于地址的描述通常是模糊且非标准化的,例如,很少会使用类似“杭州市余杭区第一中学”这种标准地址,取而代之的是使用类似“余杭一中”,“第一中学”这种简称或别名。在基于地址文本的服务,例如,快递地址查询的服务中心,需要具备POI(PointofInterest,地理实体)归一化的功能,可以在特定区域内输入“第一中学”这种别名简称的时候能够召回“杭州市余杭区第一中学”。为了实现上述功能,相关技术中可以采用如下方式:第一种方式为定制模板的方式,可以通过人工收集常用POI简写和别名,提取通用的简写和别名生成模板,当有新POI加入数据集之后,通过模板匹配的方式来确认是否为简写和别名,例如:“杭州市余杭区第一中学”提取模式为:“{district}第{idx}中学”。第二种方式为直接利用一个神经网络去针对已经标注的部分POI对拟合一个判定器,判定器的结构为底层通常基于已经预训练好的词表,中间的隐层将文本转化为定长的向量,上层使用softmax的二分类器去判定底层输入的POI对是否为同一POI。但是,对于第一种方式,模板的数量有限,未采用语义理解的方式,无法应对海量文本,导致识别准确率较低。对于第二种方式,判定器容易受到文本的字面表示影响,容易将字面相似但是实际类别不一样的POI对归为同一的POI,或将字面表示差异较大但事实是同一POI的POI对判定为不同POI,导致识别准确率较低。针对相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种地址信息的处理方法和装置,以至少解决相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。根据本申请实施例的一个方面,提供了一种地址信息的处理方法,包括:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种地址信息的处理方法,包括:显示至少两个地址文本;显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种地址信息的处理装置,包括:获取模块,用于获取至少两个地址文本;识别模块,用于利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种地址信息的处理装置,包括:第一显示模块,用于显示至少两个地址文本;第二显示模块,用于显示用于表征不同的地址文本包含的地理实体是否相一致的识别结果,其中,识别结果是利用文本识别模型对每个地址文本进行识别得到的,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行如下步骤:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行如下步骤:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。根据本申请实施例的另一方面,还提供了一种地址信息的处理系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取至少两个地址文本;利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,识别结果用于表征不同的地址文本包含的地理实体是否相一致,文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。在本申请实施例中,在获取到至少两个地址文本之后,可以利用文本识别模型对每个地址文本进行识别,得到不同的地址文本包含的地理实体是否相一致的识别结果,实现POI归一化的目的。由于文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到,因此,多任务的联合学习的方式提取了更多的文本的潜在语义,对于目标任务提供了更多的语义,识别文本识别模型具备更好的泛化性和准确性,可以应对更广泛和海量的地址文本,从而达到了提高处理准确率和泛化性,减少人力标注成本的技术效果,进而解决了相关技术中同一个地理实体的描述方式较多,通过文本识别模型进行识别的准确率较低的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种用于实现地址信息的处理方法的计算机终端(或移动设备)的硬件结构框图;图2是根据本申请实施例1的一种地址信息的处理方法的流程图;图3是根据本申请实施例的一种可选的文本识别模型的示意图;图4是根据本申请实施例的一种可选的处理后的文本识别模型的示意图;图5是根据本申请实施例的一种可选的地址信息的处理方法的流程图;图6是根据本申请实施例2的一种地址信息的处理方法的流程图;图7是根据本申请实施例1的一种地址信息的处理装置的示意图;图8是根据本申请实施例2的一种地址信息的处理装置的示意图;以及图9是根据本申请实施例的一种计算机终端的结构框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或本文档来自技高网
...

【技术保护点】
1.一种地址信息的处理方法,包括:/n获取至少两个地址文本;/n利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。/n

【技术特征摘要】
1.一种地址信息的处理方法,包括:
获取至少两个地址文本;
利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。


2.根据权利要求1所述的方法,其中,所述方法还包括:
获取多个训练集合,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签;
利用所述多个训练集合对文本识别模型进行训练,得到所述文本识别模型。


3.根据权利要求2所述的方法,其中,获取所述多个训练集合包括:
从地址库中获取地址文本集合,其中,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定;
获取所述至少一个地理实体的属性;
基于所述地址文本集合和至少一个地理实体的属性,生成所述多个训练集合。


4.根据权利要求3所述的方法,其中,基于所述地址文本集合和至少一个地理实体的属性,生成所述多个训练集合包括:
获取所述每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;
基于所述每个索引信息对应的两个地理实体,每个地理实体的属性,以及所述两个地理实体是否相一致的标签,生成所述每个训练集合。


5.根据权利要求3所述的方法,其中,从地址库中获取地址文本集合包括:
从所述地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;
获取所述每个地址文本中的预设地址元素,得到所述每个地址文本对应的索引信息;
将相同索引信息对应的地址文本进行汇总,得到所述地址文本集合。


6.根据权利要求5所述的方法,所述方法还包括:
获取多个地理实体的地址文本;
对所述地址文本进行编码处理,得到处理后的地址文本;
对所述处理后的地址文本进行划分,得到多个地址元素;
对所述多个地址元素进行聚合,建立所述地址库。


7.根据权利要求6所述的方法,其中,所述编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。


8.根据权利要求2所述的方法,所述方法还包括:
对所述文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,所...

【专利技术属性】
技术研发人员:刘楚郑华飞谢朋峻李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1