【技术实现步骤摘要】
地址信息的处理方法和装置
本申请涉及数据处理领域,具体而言,涉及一种地址信息的处理方法和装置。
技术介绍
在日常生活中,人们对于地址的描述通常是模糊且非标准化的,例如,很少会使用类似“杭州市余杭区第一中学”这种标准地址,取而代之的是使用类似“余杭一中”,“第一中学”这种简称或别名。在基于地址文本的服务,例如,快递地址查询的服务中心,需要具备POI(PointofInterest,地理实体)归一化的功能,可以在特定区域内输入“第一中学”这种别名简称的时候能够召回“杭州市余杭区第一中学”。为了实现上述功能,相关技术中可以采用如下方式:第一种方式为定制模板的方式,可以通过人工收集常用POI简写和别名,提取通用的简写和别名生成模板,当有新POI加入数据集之后,通过模板匹配的方式来确认是否为简写和别名,例如:“杭州市余杭区第一中学”提取模式为:“{district}第{idx}中学”。第二种方式为直接利用一个神经网络去针对已经标注的部分POI对拟合一个判定器,判定器的结构为底层通常基于已经预训练好的词表,中间的隐层将文本转化为定长的向量,上层使用softmax的二分类器去判定底层输入的POI对是否为同一POI。但是,对于第一种方式,模板的数量有限,未采用语义理解的方式,无法应对海量文本,导致识别准确率较低。对于第二种方式,判定器容易受到文本的字面表示影响,容易将字面相似但是实际类别不一样的POI对归为同一的POI,或将字面表示差异较大但事实是同一POI的POI对判定为不同POI,导致识别准确率较低。针对 ...
【技术保护点】
1.一种地址信息的处理方法,包括:/n获取至少两个地址文本;/n利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。/n
【技术特征摘要】
1.一种地址信息的处理方法,包括:
获取至少两个地址文本;
利用文本识别模型对每个地址文本进行识别,得到识别结果,其中,所述识别结果用于表征不同的地址文本包含的地理实体是否相一致,所述文本识别模型基于多个地址文本和每个地址文本包含的地理实体的属性得到。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取多个训练集合,其中,每个训练集合包括:两个地址文本,每个地址文本包含的地理实体的属性,以及两个地理实体是否相一致的标签;
利用所述多个训练集合对文本识别模型进行训练,得到所述文本识别模型。
3.根据权利要求2所述的方法,其中,获取所述多个训练集合包括:
从地址库中获取地址文本集合,其中,所述地址文本集合包括:多个索引信息,以及每个索引信息对应的至少一个地理实体,所述每个索引信息由地址文本中的预设地址元素确定;
获取所述至少一个地理实体的属性;
基于所述地址文本集合和至少一个地理实体的属性,生成所述多个训练集合。
4.根据权利要求3所述的方法,其中,基于所述地址文本集合和至少一个地理实体的属性,生成所述多个训练集合包括:
获取所述每个索引信息对应的两个地理实体,其中,至少一个地理实体为标准地址文本中包含的地理实体;
基于所述每个索引信息对应的两个地理实体,每个地理实体的属性,以及所述两个地理实体是否相一致的标签,生成所述每个训练集合。
5.根据权利要求3所述的方法,其中,从地址库中获取地址文本集合包括:
从所述地址库中获取多个地址文本,其中,每个地址文本由多个地址元素构成;
获取所述每个地址文本中的预设地址元素,得到所述每个地址文本对应的索引信息;
将相同索引信息对应的地址文本进行汇总,得到所述地址文本集合。
6.根据权利要求5所述的方法,所述方法还包括:
获取多个地理实体的地址文本;
对所述地址文本进行编码处理,得到处理后的地址文本;
对所述处理后的地址文本进行划分,得到多个地址元素;
对所述多个地址元素进行聚合,建立所述地址库。
7.根据权利要求6所述的方法,其中,所述编码处理包括如下至少之一:简体字和繁体字之间的转换处理,全角字符和半角字符之间的转换处理,大写字符和小写字符之间的转换处理,地址元素的标记处理。
8.根据权利要求2所述的方法,所述方法还包括:
对所述文本识别模型的输出层进行修改,得到处理后的文本识别模型,其中,所...
【专利技术属性】
技术研发人员:刘楚,郑华飞,谢朋峻,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。