一种基于空间位置和文本训练的中文地址关联方法技术

技术编号:27741990 阅读:17 留言:0更新日期:2021-03-19 13:35
本发明专利技术公开了一种基于空间位置和文本训练的中文地址关联方法,包括步骤:获取待关联地址数据,并对数据进行预处理;采用条件随机场模型,对预处理后的待关联地址数据进行分词,并对分词结果进行词性标注;基于十八级地址分级模型,对分词结果进行主体词识别提取;根据专题分类筛选半径和主体词搜索半径,在已有的标准地址库中筛选出候选地址集合;在候选地址集合中,确定目标地址;建立目标地址与待关联地址之间的关联关系表。其显著效果是:解决了不同行业部门数据与标准地址数据之间建立关联关系的问题,实现了各行业数据通过标准地址统一关联。

【技术实现步骤摘要】
一种基于空间位置和文本训练的中文地址关联方法
本专利技术涉及到地理信息技术
,具体涉及一种基于空间位置和文本训练的中文地址关联方法。
技术介绍
随着科学技术的迅猛发展,自然资源、经济社会等行业部门积累了海量的数据资源,同时各行业部门也积极共享交换这些资源,以期最大化发挥数据的价值。但由于不同来源的数据内容、组织方式、精度各不相同,数据之间难以建立有效的关联关系,这给数据的综合应用、分析和管理带来了巨大的挑战,如何有效建立数据之间的关联关系、打破数据壁垒限制成了当前亟待解决的问题。据统计,人类活动中有80%以上的信息与地理空间位置有关,而地址则是地理空间位置的文本表现方式。因此,通过地址作为纽带来建立不同数据之间的关联关系是可行的重要方法。通过地址来建立各数据之间的关联关系,现有的技术通常是采用基于地址词典或不依赖地址词典的手段来实现。基于地址词典即预先建立地址数据的要素词库、匹配规则和地理编码库,将待关联地址中的关键要素作为检索条件,在地址词典中遍历搜索匹配,进而找出判定相同的地址数据,建立不同来源数据之间的关联关系。这种方法对地址词典已包含的地址数据有较好的解析效果,但是在面对复杂中文地址场景时还存在一定的局限性。首先已有地址词典不可能包含所有地址数据的全部要素,对词典未覆盖的地址数据解析效果不好,而且随着地址词典内容不断丰富,构建新的内容工作量大耗时长、词典过大不易维护。不依赖词典方法一般通过采用自然语言处理技术等手段分析地址要素构成特征,然后进行相互匹配。这种方法对结构规范标准的地址数据处理效果非常好,但是针对描述文字语义模糊、结构不规范的中文地址情况处理效果不好,并且只能从文本这一维度进行解析。总结起来,地址关联的难度主要体现在以下三个方面:1)由于不同行业部门对地址的需求不同,各数据空间位置、地址描述与标准地址均存在偏差,单纯依靠空间位置或地址描述信息难以准确地建立各行业数据与标准地址的关联关系。2)由于历史变迁和社会发展,很多地址的命名随时代发展变化较多,包含了大量的曾用名、别名等;另外,有些地址信息采集过程中导致缺项、错别字、大致的方向范围描述等不规范情况较多;3)自然语言描述的地址存在语义上的连续性或者缩写、简称等情况,传统的分词方法和字符串匹配等手段难以有效精准识别。基于此,目前需要一种综合考虑地理空间位置和文本两个维度并且不单纯依赖地址词典、能够适配地址描述文字语义模糊、结构不规范等情况的中文地址关联方法,能够适配复杂中文地址场景,将不同行业部门的数据和标准地址进行有效关联。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种基于空间位置和文本训练的中文地址关联方法,能够适配复杂中文地址场景,不单纯依赖地址词典、能够较好适配地址描述文字语义模糊、结构不规范等情况并且适配地理空间位置和文本两个维度,以解决当前不同行业部门数据与标准地址数据之间建立关联关系的技术问题。为达到上述目的,本专利技术采用的技术方案如下:一种基于空间位置和文本训练的中文地址关联方法,其关键在于包括如下步骤:步骤1:获取待关联地址数据,并对数据进行预处理;步骤2:采用条件随机场模型,对预处理后的待关联地址数据进行分词,并对分词结果进行词性标注;步骤3:基于十八级地址分级模型,对分词结果进行主体词识别提取;步骤4:根据专题分类筛选半径和主体词搜索半径,在已有的标准地址库中筛选出候选地址集合;步骤5:在候选地址集合中,确定目标地址;步骤6:建立目标地址与待关联地址之间的关联关系表。进一步的,步骤1中对待关联地址数据进行预处理包括特殊字符清理过程、缺失行政区划补全过程以及用户自行填写的无意义数据清理过程。进一步的,步骤2中采用条件随机场模型对预处理后的待关联地址数据进行分词的具体步骤为:步骤2.1:基于初始样本词库中的词组库内容,采用条件随机场模型对预处理后的待关联地址数据中每个单字进行词位标注;步骤2.2:通过条件随机场模型中的特征模板计算单字之间的连续性概率,并进行反复的迭代训练,最终计算出不同的分词组合概率;步骤2.3:选择概率最高的分词组合形成分词结果。进一步的,步骤2中对分词结果进行词性标注的步骤如下:步骤S1:基于十八级地址分级模型,构建词组之间的词性依赖模板;步骤S2:在条件随机场模型的训练过程中,将对应的词组的词性按照十八级进行初步划分,并按照词性依赖模板设置进行迭代,确定出最终的分级标注;步骤S3:将最终的分级标注对应的分词结果反馈录入到初始样本词库中,丰富初始样本词库。进一步的,所述条件随机场模型的训练过程为:步骤A1:基于样本地址数据,根据十八级地址分级模型,得到地址标注数据;步骤A2:根据地址标注数据,统计、总结归纳出各类特征模板并形成特征函数;步骤A3:采用特征函数对中文地址进行训练,获得条件随机场模型。进一步的,步骤3中对分词结果进行主体词识别提取的过程如下:步骤3.1:根据分词结果,对于包含了主体词级别内容的情况,从十八级地址分级模型的第十三级起,如果有多个同级别主体词,则逐一提出;步骤3.2:如果第十三级没有,则向上返回一级,直到全部识别提取出主体词为止;步骤3.3:对于不包含主体词级别内容的情况,则该地址所描述空间范围太大,没有太大利用价值。进一步的,步骤4中所述候选地址集合的筛选过程为:步骤4.1:取专题分类筛选半径和主体词搜索半径中的较大值为筛选半径;步骤4.2:以待关联地址坐标点为原点,以筛选半径为缓冲半径,通过缓冲区圈选出该范围内所有标准库地址数据;步骤4.3:在圈选出的标准地址数据基础上,通过主体词索引筛选出候选地址集合。进一步的,步骤5中目标地址的确定过程为:步骤5.1:基于步骤4中筛选出的候选地址集合,按照十八级地址分级模型构建候选地址数据索引;步骤5.2:将待关联地址的分词结果,在候选地址数据索引中进行检索,若完全匹配则在候选地址中找到与待关联地址完全相同的地址,直接确定为目标地址,否则进入步骤5.3;步骤5.3:根据待关联地址的主体词信息,再次在候选地址数据索引中进行检索,得到待关联地址主体词与候选地址主体词存在交集的候选地址数据作为初始推荐候选地址;步骤5.4:最后根据主体词同一级别的待关联地址与初始推荐候选地址,按空间位置距离由近到远进行排序,取若干个排序在前的部分,得到最终推荐候选地址;步骤5.5:采用编辑距离算法计算待关联地址与最终推荐候选地址的文本相似度;步骤5.6:取相似度值最高的候选地址为目标地址。进一步的,所述编辑距离算法的计算公式为:sim=1-dis/max(len(s1),len(s2)),其中,sim表示待关联地址中的字符串len(s1)与候选地址中的字符串len(s2)的文本相似度,dis/max(len(s1)本文档来自技高网
...

【技术保护点】
1.一种基于空间位置和文本训练的中文地址关联方法,其特征在于包括如下步骤:/n步骤1:获取待关联地址数据,并对数据进行预处理;/n步骤2:采用条件随机场模型,对预处理后的待关联地址数据进行分词,并对分词结果进行词性标注;/n步骤3:基于十八级地址分级模型,对分词结果进行主体词识别提取;/n步骤4:根据专题分类筛选半径和主体词搜索半径,在标准地址库中筛选出候选地址集合;/n步骤5:在候选地址集合中,确定目标地址;/n步骤6:建立目标地址与待关联地址之间的关联关系表。/n

【技术特征摘要】
1.一种基于空间位置和文本训练的中文地址关联方法,其特征在于包括如下步骤:
步骤1:获取待关联地址数据,并对数据进行预处理;
步骤2:采用条件随机场模型,对预处理后的待关联地址数据进行分词,并对分词结果进行词性标注;
步骤3:基于十八级地址分级模型,对分词结果进行主体词识别提取;
步骤4:根据专题分类筛选半径和主体词搜索半径,在标准地址库中筛选出候选地址集合;
步骤5:在候选地址集合中,确定目标地址;
步骤6:建立目标地址与待关联地址之间的关联关系表。


2.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法,其特征在于:步骤1中对待关联地址数据进行预处理包括特殊字符清理过程、缺失行政区划补全过程以及用户自行填写的无意义数据清理过程。


3.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法,其特征在于:步骤2中采用条件随机场模型对预处理后的待关联地址数据进行分词的具体步骤为:
步骤2.1:基于初始样本词库中的词组库内容,采用条件随机场模型对预处理后的待关联地址数据中每个单字进行词位标注;
步骤2.2:通过条件随机场模型中的特征模板计算单字之间的连续性概率,并进行反复的迭代训练,最终计算出不同的分词组合概率;
步骤2.3:选择概率最高的分词组合形成分词结果。


4.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法,其特征在于:步骤2中对分词结果进行词性标注的步骤如下:
步骤S1:基于十八级地址分级模型,构建词组之间的词性依赖模板;
步骤S2:在条件随机场模型的训练过程中,将对应的词组的词性按照十八级进行初步划分,并按照词性依赖模板设置进行迭代,确定出最终的分级标注;
步骤S3:将最终的分级标注对应的分词结果反馈录入到初始样本词库中,丰富初始样本词库。


5.根据权利要求1或3或4所述的基于空间位置和文本训练的中文地址关联方法,其特征在于:所述条件随机场模型的训练过程为:
步骤A1:基于样本地址数据,根据十八级地址分级模型,得到地址标注数据;
步骤A2:根据地址标注数据,统计、总结归纳出各类特征模板并形成特征函数;
步骤A3:采用特征函数对中文地址进行训练,获得条件随机场模型。


6.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法,其特征在于:步骤3中对分词结果进行主体词识别提取的过程如下:
步骤3.1:根据分词结...

【专利技术属性】
技术研发人员:董文杰何宗高翔袁超张红文贾亚辉刘建韩维喆叶胜瞿孟李胜王岚肖勇钱文进王俊曾攀彭婧
申请(专利权)人:重庆市地理信息和遥感应用中心
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1