一种基于空间位置和文本训练的中文地址关联方法技术

技术编号：27741990 阅读：17 留言：0更新日期：2021-03-19 13:35

本发明专利技术公开了一种基于空间位置和文本训练的中文地址关联方法，包括步骤：获取待关联地址数据，并对数据进行预处理；采用条件随机场模型，对预处理后的待关联地址数据进行分词，并对分词结果进行词性标注；基于十八级地址分级模型，对分词结果进行主体词识别提取；根据专题分类筛选半径和主体词搜索半径，在已有的标准地址库中筛选出候选地址集合；在候选地址集合中，确定目标地址；建立目标地址与待关联地址之间的关联关系表。其显著效果是：解决了不同行业部门数据与标准地址数据之间建立关联关系的问题，实现了各行业数据通过标准地址统一关联。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于空间位置和文本训练的中文地址关联方法
本专利技术涉及到地理信息技术
，具体涉及一种基于空间位置和文本训练的中文地址关联方法。
技术介绍
随着科学技术的迅猛发展，自然资源、经济社会等行业部门积累了海量的数据资源，同时各行业部门也积极共享交换这些资源，以期最大化发挥数据的价值。但由于不同来源的数据内容、组织方式、精度各不相同，数据之间难以建立有效的关联关系，这给数据的综合应用、分析和管理带来了巨大的挑战，如何有效建立数据之间的关联关系、打破数据壁垒限制成了当前亟待解决的问题。据统计，人类活动中有80％以上的信息与地理空间位置有关，而地址则是地理空间位置的文本表现方式。因此，通过地址作为纽带来建立不同数据之间的关联关系是可行的重要方法。通过地址来建立各数据之间的关联关系，现有的技术通常是采用基于地址词典或不依赖地址词典的手段来实现。基于地址词典即预先建立地址数据的要素词库、匹配规则和地理编码库，将待关联地址中的关键要素作为检索条件，在地址词典中遍历搜索匹配，进而找出判定相同的地址数据，建立不同来源数据之间的关联关系。这种方法对地址词典已包含的地址数据有较好的解析效果，但是在面对复杂中文地址场景时还存在一定的局限性。首先已有地址词典不可能包含所有地址数据的全部要素，对词典未覆盖的地址数据解析效果不好，而且随着地址词典内容不断丰富，构建新的内容工作量大耗时长、词典过大不易维护。不依赖词典方法一般通过采用自然语言处理技术等手段分析地址要素构成特征，然后进行相互匹配。这种方法对结构规范标准的地址数据处理效果非...

【技术保护点】
1.一种基于空间位置和文本训练的中文地址关联方法，其特征在于包括如下步骤：/n步骤1：获取待关联地址数据，并对数据进行预处理；/n步骤2：采用条件随机场模型，对预处理后的待关联地址数据进行分词，并对分词结果进行词性标注；/n步骤3：基于十八级地址分级模型，对分词结果进行主体词识别提取；/n步骤4：根据专题分类筛选半径和主体词搜索半径，在标准地址库中筛选出候选地址集合；/n步骤5：在候选地址集合中，确定目标地址；/n步骤6：建立目标地址与待关联地址之间的关联关系表。/n

【技术特征摘要】
1.一种基于空间位置和文本训练的中文地址关联方法，其特征在于包括如下步骤：
步骤1：获取待关联地址数据，并对数据进行预处理；
步骤2：采用条件随机场模型，对预处理后的待关联地址数据进行分词，并对分词结果进行词性标注；
步骤3：基于十八级地址分级模型，对分词结果进行主体词识别提取；
步骤4：根据专题分类筛选半径和主体词搜索半径，在标准地址库中筛选出候选地址集合；
步骤5：在候选地址集合中，确定目标地址；
步骤6：建立目标地址与待关联地址之间的关联关系表。

2.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤1中对待关联地址数据进行预处理包括特殊字符清理过程、缺失行政区划补全过程以及用户自行填写的无意义数据清理过程。

3.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤2中采用条件随机场模型对预处理后的待关联地址数据进行分词的具体步骤为：
步骤2.1：基于初始样本词库中的词组库内容，采用条件随机场模型对预处理后的待关联地址数据中每个单字进行词位标注；
步骤2.2：通过条件随机场模型中的特征模板计算单字之间的连续性概率，并进行反复的迭代训练，最终计算出不同的分词组合概率；
步骤2.3：选择概率最高的分词组合形成分词结果。

4.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤2中对分词结果进行词性标注的步骤如下：
步骤S1：基于十八级地址分级模型，构建词组之间的词性依赖模板；
步骤S2：在条件随机场模型的训练过程中，将对应的词组的词性按照十八级进行初步划分，并按照词性依赖模板设置进行迭代，确定出最终的分级标注；
步骤S3：将最终的分级标注对应的分词结果反馈录入到初始样本词库中，丰富初始样本词库。

5.根据权利要求1或3或4所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：所述条件随机场模型的训练过程为：
步骤A1：基于样本地址数据，根据十八级地址分级模型，得到地址标注数据；
步骤A2：根据地址标注数据，统计、总结归纳出各类特征模板并形成特征函数；
步骤A3：采用特征函数对中文地址进行训练，获得条件随机场模型。

6.根据权利要求1所述的基于空间位置和文本训练的中文地址关联方法，其特征在于：步骤3中对分词结果进行主体词识别提取的过程如下：
步骤3.1：根据分词结...

【专利技术属性】
技术研发人员：董文杰，何宗，高翔，袁超，张红文，贾亚辉，刘建，韩维喆，叶胜，瞿孟，李胜，王岚，肖勇，钱文进，王俊，曾攀，彭婧，
申请(专利权)人：重庆市地理信息和遥感应用中心，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人