基于规则的地址信息匹配方法组成比例

技术编号：7917718 阅读：199 留言：0更新日期：2012-10-25 02:43

一种基于规则的地址信息匹配方法，包括：根据录入的地址信息进行切词，将切词后得到的地址词条在地址库中进行词条匹配，并将匹配的地址词条添加到地址链路中，并在地址链路中选择一个最佳匹配的结果输出。该基于规则的地址信息匹配方法匹配精度高、速度快，其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题，避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题，实现了精确和快捷的正确地址信息匹配。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机的信息匹配和检索技术，具体涉及用于地址检索、地址标准化、地址匹配和地址清洗等的。
技术介绍
在计算机的数据处理中，有很对针对地址的分析和应用，因为数据来源的不同，针对同一地址的描述往往很难一致。这就给地址的分析和处理产生了很大的麻烦。这就需要有一个工具把录入的地址转换成标准的地址。在进行地址转换匹配中需要解决诸多问题，因为我国地域广阔而地址名称也是多种多样，造成了匹配精度较低的现状。其主要原因包括地址数量大而地址的精确性低，以及地址重名较多。例如张自忠路，北京、上海、天津等中国很多城市都有该地址名称。省略和别名也较多，例如北京市，地址描述时候常常把市给省略掉。另外地址信息中还通常包含其它信息，例如写地址的时候经常搀杂一些其它的信息，包括公司的名字，有时候还有姓名和电话号码。另外，地址的异化问题包括习惯称呼、名称改变、名称重叠和同音字错误、简繁字体差异等也会带来地址匹配的错误。为解决上述问题，需要建立庞大的地址库以减小地址匹配差异，目前针对地址库过大的问题通常都是从硬件上去解决。例如使用性能更好的计算机，或者使用性能更好的数据库。但带来的后果首先是成本的问题，另外硬件的改善对于地址匹配缺陷的改变还是非常有限。
技术实现思路
本专利技术提供了一种匹配精度高、速度快的，其采用较为小型的地址库和配置的多类型数据库有效地解决了地址异化问题，避免了地址名称变更、习惯称呼、地址名重叠、错别字等各种影响地址词条匹配问题，实现了精确和快捷的正确地址信息匹配。本专利技术所采用的技术方案如下一种，其特征在于所述地址信息匹配方法包括根据录入的地址信息进行切词，...

【技术保护点】
一种基于规则的地址信息匹配方法，其特征在于所述地址信息匹配方法包括：根据录入的地址信息进行切词，将切词后得到的地址词条在地址库中进行词条匹配，并将匹配的地址词条添加到地址链路中，并在地址链路中选择一个最佳匹配的结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：崔传德，于志华，
申请(专利权)人：迪尔码国际营销服务北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人