基于规则的地址信息匹配方法组成比例

技术编号:7917718 阅读:189 留言:0更新日期:2012-10-25 02:43
一种基于规则的地址信息匹配方法,包括:根据录入的地址信息进行切词,将切词后得到的地址词条在地址库中进行词条匹配,并将匹配的地址词条添加到地址链路中,并在地址链路中选择一个最佳匹配的结果输出。该基于规则的地址信息匹配方法匹配精度高、速度快,其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题,避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题,实现了精确和快捷的正确地址信息匹配。

【技术实现步骤摘要】

本专利技术属于计算机的信息匹配和检索技术,具体涉及用于地址检索、地址标准化、地址匹配和地址清洗等的。
技术介绍
在计算机的数据处理中,有很对针对地址的分析和应用,因为数据来源的不同,针对同一地址的描述往往很难一致。这就给地址的分析和处理产生了很大的麻烦。这就需要有一个工具把录入的地址转换成标准的地址。在进行地址转换匹配中需要解决诸多问题,因为我国地域广阔而地址名称也是多种多样,造成了匹配精度较低的现状。其主要原因包括地址数量大而地址的精确性低,以及地址重名较多。例如张自忠路,北京、上海、天津等中国很多城市都有该地址名称。省略和别名也较多,例如北京市,地址描述时候常常把市给省略掉。另外地址信息中还通常包含其它信息,例如写地址的时候经常搀杂一些其它的信息, 包括公司的名字,有时候还有姓名和电话号码。另外,地址的异化问题包括习惯称呼、名称改变、名称重叠和同音字错误、简繁字体差异等也会带来地址匹配的错误。为解决上述问题,需要建立庞大的地址库以减小地址匹配差异,目前针对地址库过大的问题通常都是从硬件上去解决。例如使用性能更好的计算机,或者使用性能更好的数据库。但带来的后果首先是成本的问题,另外硬件的改善对于地址匹配缺陷的改变还是非常有限。
技术实现思路
本专利技术提供了一种匹配精度高、速度快的,其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题,避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题,实现了精确和快捷的正确地址信息匹配。本专利技术所采用的技术方案如下一种,其特征在于所述地址信息匹配方法包括根据录入的地址信息进行切词,将切词后得到的地址词条在地址库中进行词条匹配,并将匹配的地址词条添加到地址链路中,并在地址链路中选择一个最佳匹配的结果输出。具体实施方式中,所述匹配方法进一步包括所述地址库包括一标准地址库,该标准地址库以树状结构建立,所述每一树状结构的节点建立索引,所述地址库中的中文和数字采用相匹配的压缩形式。一实施方式中,所述地址库还包括一别名地址库,别名地址库包括同一地址的习惯称呼、历史名称、简称和特称信息。一实施方式中,所述匹配方法进一步包括所述切词后得到的地址词条先在所述标准地址库中进行词条匹配,然后再于别名地址库中进行词条匹配,然后选择一匹配的地址词条添加到地址链路中。一实施方式中,所述匹配方法进一步包括所述切词后得到的地址词条进行错别字纠正,然后用纠正后的地址词条在地址库中进行词条匹配。另一实施方式中,所述错别字纠错包括音近字错别字纠错和形近字错别字纠错;所述音近字错别字纠错包括利用拼音建立汉字之间的关系,在进行词条匹配时如无法在地址库中,用音近字代替当前汉字在地址库中重新进行词条匹配;所述形近字错别字纠错包括建立形近字字库,在形近字字库中将汉字按字形分组,在进行词条匹配时,汉字在其字形分组内替代匹配。一实施方式中,所述匹配方法进一步包括 在地址库中建立邮编与地址的关联,进行词条匹配前,根据地址词条找出匹配对应的邮编;如果输入地址包含邮编信息,则先根据邮编对应的区域范围,缩小地址查找区域。一实施方式中,所述地址库还包括一组织机构数据库,该组织机构数据库将组织机构名称拆分为关键字和修饰词;所述匹配方法包括对录入的地址信息与组织机构数据库进行词条匹配,首先与所述关键字进行词条匹配,再与修饰词进行词条匹配,然后将词条匹配的结果作为一临时结果,再进行全地址的词条匹配,最后拟合地址与组织机构匹配的结果,并选择一结果输出。再一实施方式中,所述匹配方法进一步包括创立一繁体和简体文字转换表,在进行词条匹配前,先将发现的繁体字依据繁体和简体文字转换表转换为简体字。该通过将切词后的地址词条进行地址库匹配,并根据匹配信息进行匹配后的地址词条的地址链路添加。地址库包括采用树状结构建立的标准地址库,每树状结构的标准地址库能够有效地减少地址数据的重复描述情况,通过对树状结构的每一个节点建立索引,能够加快地址检索和匹配的速度;而根据中文文字和数字的差异选择压缩技术,能够减小数据库的大小。针对同一地址的习惯称呼、历史名称、简称和特称等地址别名,本专利技术允许给出一个地址别名并根据该别名的输入得到相应的匹配地址词条。对于组织机构的匹配,本专利技术收集和建立了组织机构数据库,每一组织机构的地址词条都拆分为关键字和修饰词部分,关键词为组织机构匹配的核心。关键字若无法匹配则不再进行组织机构的词条匹配。如果关键字完全匹配的话,则根据修饰词的匹配情况判断最终的匹配结果。本专利技术的有益效果在于,该地址信息匹配方法匹配精度高、速度快的基于规则,其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题,避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题,实现了精确和快捷的正确地址信息匹配。下面结合具体实施方式对本专利技术做进一步的阐述。具体实施例方式该可用于基于计算机的地址检索、地址标准化、地址匹配和地址清洗等技术。其根据录入的地址信息进行切词,将切词后得到的地址词条在地址库中进行词条匹配,并将匹配的地址词条添加到地址链路中,并在地址链路中选择一个最佳匹配的结果输出。该地址库包括一标准地址库,该标准地址库以树状结构建立,所述每一树状结构的节点建立索引,所述地址库中的中文和数字采用相匹配的压缩形式。该地址库还包括一别名地址库,别名地址库包括同一地址的习惯称呼、历史名称、简称和特称信息。例如“北京市海淀区西直门外大街”别名为“西外大街”,在系统匹配过程中用户输入“北京西外大街”就可以得到“北京市海淀区西直门外大街”;一个地址可以存在多个别名。例如“江苏省苏州市相城区阳澄湖镇湘太路98号爱汀花园”的允许给两个别名,分别是“爱汀堡”和“爱丁堡”。所述切词后得到的地址词条先在标准地址库中进行词条匹配,然后再于别名地址库中进行词条匹配,然后选择一匹配的地址词条添加到地址链路中。地址库还包括一组织 机构数据库,该组织机构数据库将组织机构名称拆分为关键字和修饰词;所述匹配方法还包括对录入的地址信息与组织机构数据库进行词条匹配,首先与所述关键字进行词条匹配,再与修饰词进行词条匹配,然后将词条匹配的结果作为一临时结果,再进行全地址的词条匹配,最后拟合地址与组织机构匹配的结果,并选择一结果输出。该组织机构数据库集合了大量的公司、机关、单位、组织和学校的名字信息。组织机构的名字信息可拆分为关键字和修饰词两部分,例如“北京锋尚鑫隆电子技术中心”。“锋尚鑫隆”为关键字,可以大概确定公司的字符串。其它如“北京”“电子”“技术” “中心”为修饰词。修辞词为事先定义好的词库。该词库为采集的组织机构中的常见的字词。比如上例中的“北京”、“电子”“技术” “中心”等。拆分组织机构的时候,先拆修饰词。等修饰词拆分完,剩下的就是关键词。一个组织机构允许有多个关键字。关键字为组织机构匹配的核心。关键字若匹配不上则停止组织机构的匹配。关键字完全匹配上的话,则根据修饰词的匹配情况判断最终的匹配结果。在匹配过程中,切词后得到的地址词条还进行错别字纠正,然后用纠正后的地址词条在地址库中进行词条匹配。错别字纠错包括音近字错别字纠错和形近字错别字纠错,这两种错别字所占的比例非常高,其原因是当前的输入法往往用的是字音或字形两钟输入方式。所本文档来自技高网...

【技术保护点】
一种基于规则的地址信息匹配方法,其特征在于所述地址信息匹配方法包括:根据录入的地址信息进行切词,将切词后得到的地址词条在地址库中进行词条匹配,并将匹配的地址词条添加到地址链路中,并在地址链路中选择一个最佳匹配的结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:崔传德于志华
申请(专利权)人:迪尔码国际营销服务北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1