System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开的实施例涉及计算机,具体涉及地址落位方法和装置。
技术介绍
1、地址落位是将自然语言描述的地址文本映射至标准地理层级的过程。地理层级是一种根据空间范围划分的层级结构。通常地,可以根据实际的使用场景,划分不同的地理层级,如治安巡逻的地理层级、物流配送的地理层级等。
2、不同于常见的地址查询(将地址文本映射至经纬度坐标),地址落位将用户输入的地址文本映射至预先定义好的地理层级。在政务服务场景中,地址落位应用十分普遍。在这些应用场景中,涉及到的地址文本主要来自于用户个人和管理人员手动填写,经常会出现地理层级冲突、撰写不规范、地址不完整、错别字等情况,这对地址落位造成巨大挑战。
3、现有技术的全文检索方法进行地址落位,依赖于文本相似度计算,然而文本之间的自由匹配无法适应地址天然的层级结构。现有技术中基于层级选择实现的规则匹配方法,在一定程度上受限于规则的制定,其预先定义好的规则系统并不能很好地适应用户复杂多样的地址填写情况,并且可能会因为用户填写的行政层级不标准或前后冲突,导致无法匹配到用户真正想要的结果。
技术实现思路
1、本公开的实施例提出了地址落位方法和装置。
2、第一方面,本公开的实施例提供了地址落位方法,包括:将地址文本进行滑窗切片得到词元集合;将所述词元集合与地理层级树中的层级节点数据进行匹配,获得匹配的层级节点,其中,层级节点数据包括:将层级节点名称滑窗切片得到的词元集合;对于每个匹配的层级节点,根据匹配的词元的权重计算该层级节点的分
3、在一些实施例中,所述将所述词元集合与地理层级树中的层级节点数据进行匹配,获得匹配的层级节点,包括:针对所述词元集合中每个词元查询预先构建的倒排索引获得所有包含该词元的层级节点,获得匹配的层级节点。
4、在一些实施例中,所述方法还包括:针对地理层级树中的每个层级节点,对节点名称进行滑窗切片得到对应的模糊词元集合;针对所述模糊词元集合中每个模糊词元,将包含该模糊词元的所有层级节点注册到该词元的倒排索引中。
5、在一些实施例中,所述方法还包括:根据所述词元集合中每个词元在地理层级树中的层级节点数据中出现的频率计算词元的权重,其中,出现的频率越高,权重越低。
6、在一些实施例中,所述根据匹配的词元的权重计算该层级节点的分数值,包括:根据词元权重、词元长度、层级节点的匹配比例计算该层级节点的分数值。
7、在一些实施例中,所述根据候选地址链路包含的层级节点的分数值计算每个候选地址链路的分数,包括:对于候选地址链路包含的每个层级节点,通过层级权重对该层级节点的分数值加权;将候选地址链路包含的所有层级节点的分数值的加权值累加,作为候选地址链路的分数。
8、在一些实施例中,在所述根据匹配的词元的权重计算该层级节点的分数值之前,所述方法还包括:通过预先生成的词元权重索引查询匹配的词元的权重;其中,所述词元权重索引通过如下步骤生成:针对地理层级树中的每个层级节点,对节点名称进行滑窗切片得到对应的模糊词元集合;根据所述模糊词元集合中每个模糊词元在地理层级树中的层级节点数据中出现的频率计算模糊词元的权重,其中,出现的频率越高,权重越低;将每个模糊词元的权重采用键值类型的数据结构存储,生成词元权重索引。
9、第二方面,本公开的实施例提供了一种地址落位装置,包括:切词单元,被配置成将地址文本进行滑窗切片得到词元集合;匹配单元,被配置成将所述词元集合与地理层级树中的层级节点数据进行匹配,获得匹配的层级节点,其中,层级节点数据包括:将层级节点名称滑窗切片得到的词元集合;计算单元,被配置成对于每个匹配的层级节点,根据匹配的词元的权重计算该层级节点的分数值;链路单元,被配置成通过深度优先遍历获得所有包含匹配的层级节点的候选地址链路;选择单元,被配置成根据候选地址链路包含的层级节点的分数值计算每个候选地址链路的分数,并选择分数最高的候选地址链路作为落位结果。
10、在一些实施例中,所述匹配单元进一步被配置成:针对所述词元集合中每个词元查询预先构建的倒排索引获得所有包含该词元的层级节点,获得匹配的层级节点。
11、在一些实施例中,所述装置还包括倒排单元,被配置成:针对地理层级树中的每个层级节点,对节点名称进行滑窗切片得到对应的模糊词元集合;针对所述模糊词元集合中每个模糊词元,将包含该模糊词元的所有层级节点注册到该词元的倒排索引中。
12、在一些实施例中,所述装置还包括权重计算单元,被配置成:根据所述词元集合中每个词元在地理层级树中的层级节点数据中出现的频率计算词元的权重,其中,出现的频率越高,权重越低。
13、在一些实施例中,所述计算单元进一步被配置成:根据词元权重、词元长度、层级节点的匹配比例计算该层级节点的分数值。
14、在一些实施例中,所述链路单元进一步被配置成:对于候选地址链路包含的每个层级节点,通过层级权重对该层级节点的分数值加权;将候选地址链路包含的所有层级节点的分数值的加权值累加,作为候选地址链路的分数。
15、在一些实施例中,所述装置还包括权重索引单元,被配置成:在所述根据匹配的词元的权重计算该层级节点的分数值之前,通过预先生成的词元权重索引查询匹配的词元的权重;其中,所述词元权重索引通过如下步骤生成:针对地理层级树中的每个层级节点,对节点名称进行滑窗切片得到对应的模糊词元集合;根据所述模糊词元集合中每个模糊词元在地理层级树中的层级节点数据中出现的频率计算模糊词元的权重,其中,出现的频率越高,权重越低;将每个模糊词元的权重采用键值类型的数据结构存储,生成词元权重索引。
16、第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的方法。
17、第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法。
18、本公开的实施例提供的地址落位方法和装置,针对地址落位中结果相似度量和文本模糊匹配的技术问题,融合地理层级、数据库索引和文本检索技术,提出了一种新的基于层级结构的地址落位方法。本公开针对标准地理层级数据采用一种层级存储结构,基于层级存储结构建立倒排索引,结合地址的层级特点设计一种落位匹配方法,通过匹配地址链路的分数获得最优的落位结果。本公开可以有效应用于问卷调查、事件分派等政务服务场景,实现快速且精准的地址落位功能,具有广泛的应用价值。
19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公本文档来自技高网...
【技术保护点】
1.一种地址落位方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述词元集合与地理层级树中的层级节点数据进行匹配,获得匹配的层级节点,包括:
3.根据权利要求2所述的方法,其中,所述方法还包括:
4.根据权利要求1所述的方法,其中,所述方法还包括:
5.根据权利要求1所述的方法,其中,所述根据匹配的词元的权重计算该层级节点的分数值,包括:
6.根据权利要求1所述的方法,其中,所述根据候选地址链路包含的层级节点的分数值计算每个候选地址链路的分数,包括:
7.根据权利要求1所述的方法,其中,在所述根据匹配的词元的权重计算该层级节点的分数值之前,所述方法还包括:
8.一种地址落位装置,包括:
9.一种电子设备,包括:
10.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
【技术特征摘要】
1.一种地址落位方法,包括:
2.根据权利要求1所述的方法,其中,所述将所述词元集合与地理层级树中的层级节点数据进行匹配,获得匹配的层级节点,包括:
3.根据权利要求2所述的方法,其中,所述方法还包括:
4.根据权利要求1所述的方法,其中,所述方法还包括:
5.根据权利要求1所述的方法,其中,所述根据匹配的词元的权重计算该层级节点的分数值,包括:
6.根据权利要求1所...
【专利技术属性】
技术研发人员:王铭,俞自生,隋远,
申请(专利权)人:京东城市北京数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。