一种基于集合运算的中文地址行政区划解析方法技术

技术编号:14924665 阅读:71 留言:0更新日期:2017-03-30 16:44
本发明专利技术公开了一种基于集合运算的中文地址行政区划解析方法,该方法包括以下步骤:首先利用行政区划字典和移动窗口最大匹配算法,从中文地址中提取所有可能的行政区划数据集,然后利用中文地址行政区划元素之间具有层次关系的特点,建立行政区划条件集合运算规则,最后对行政区划集合进行条件集合运算,得到信息量最完整最准确的中文地址的行政区划。本发明专利技术方法解决了在互联网中中文地址数据混乱无序的情况下快速解析出中文地址行政区划的问题,并能得到信息量最完整最准确的中文地址的行政区划解析结果。

【技术实现步骤摘要】

本专利技术涉及中文地址解析技术,尤其涉及一种基于集合运算的中文地址行政区划解析方法
技术介绍
科技的不断发展,人们对生活中各个方面的需求不断提升,服务化社会成为未来发展的趋势。作为服务化中的一种形式,当今地理信息位置服务是通过国家地理信息普查、实地勘察等方式获取数据建立一个标准的中文地址库,然后通过匹配进行信息返回。在互联网位置服务中,地理位置可以有多种方式来表达,中文地址是其中之一。一个规范的中文地址应包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室的次序来表达。一个完整规范的中文地址可以得到与其对应的地理位置。然而,在互联网上,中文地址的经常用非规范行政区划方式来描述,中文地址中与行政区划相关的方式有:行政区划用简称(省略行政区划特征词)、省略部分行政区划、省略行政区划、行政区划信息不是规范次序出现。此外,地址的非行政区划部分存在与行政区划同名的情况,主要表现在:路街的名称常用行政区划名称命名、建筑(或企业)名称中包含行政区划名称、地名与行政区划同名,等等。在互联网中纷杂的非规范信息中,辨别出相对于用户需要的信任度比较高的信息,在当今地理信息位置服务方面变得十分必要,一个基于集合运算的中文地址行政区划解析算法随着用户的需要而产生。对于一个中文地址为了快速地解析出地址的行政区划,一般借助行政区划字典来匹配地址中的行政区划。由于可能存在多个行政区划信息,利用字典则会匹配出多个行政区划集合。例如地址中存在行政区划词“江苏”和“鼓楼”,查询返回的结果集为{{江苏省,南京市,鼓楼区

【技术保护点】
一种基于集合运算的中文地址行政区划解析方法,它包括以下步骤:1)利用行政区划字典和移动窗口最大匹配算法,查询匹配出所需解析的中文地址字符串中所有可能的行政区划结果集;2)根据步骤1)得到的所有可能的行政区划结果集,进行条件集合运算;行政区划条件集合运算规则如下:一个行政区划是包括省、市、县、乡、村5级行政区划元素,并按照省、市、县、乡、村的次序组成,于是行政区划D记为:D={d1,d2,d3,d4,d5};2.1)1个行政区划集合的交集;一个行政区划集合DS={D1,D2,…,Dm},并且D1,D2,…,Dm的省级区划元素都不为空,则行政区划集合DS的交集为DI(D1,D2,…,Dm);用公式(1)表示:DI(D1,D2,…,Dm)=∩DS=∩{D1,D2,…,Dm}=D1∩D2∩…∩Dm  (1)2.2)多个行政区划集合的交集;多个行政区划集合的交为多个行政区划集合分别两两相交结果的集合,记为DSI;用公式(2)表示:DSI(DS1,DS2,...,DSn)]]>=DSI(DS1,DS2),DSI(DS1,DS3),...,DSI(DS1,DSn),DSI(DS2,DS3),...,DSI(DS2,DSn),...,DSI(DSn-1,DSn)={DS1∩DS2},{DS1∩DS3},...,{DS1∩DSn},{DS2∩DS3},...,{DS2∩DSn},...,{DSn-1∩DSn}---(2)]]>若上述两两相交结果的集合中有运算结果为空的,则将对应的行政区划的交运算变成并运算;3)根据步骤2)条件集合运算的结果输出解析出的行政区划。...

【技术特征摘要】
1.一种基于集合运算的中文地址行政区划解析方法,它包括以下步骤:
1)利用行政区划字典和移动窗口最大匹配算法,查询匹配出所需解析的中
文地址字符串中所有可能的行政区划结果集;
2)根据步骤1)得到的所有可能的行...

【专利技术属性】
技术研发人员:李晓林黄爽张彦铎卢涛段艳会张玉敏万永静杨威
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1