当前位置: 首页 > 专利查询>武汉大学专利>正文

基于隐马尔可夫与分类算法耦合的地址文本要素提取方法技术

技术编号:29928973 阅读:12 留言:0更新日期:2021-09-04 18:53
本申请属于地理智能技术领域,涉及了一种地址文本中要素信息提取方法。包括以下步骤:S1、对地址文本分词后词序列预定义隐藏状态和观察状态,构建隐马尔可夫模型;S2、基于观察状态构造观察特征,训练观测特征对隐藏状态的多分类模型;S3、动态地将分类模型对隐藏状态的预测概率向量按列拼接为观测概率矩阵,替换隐马尔可夫中的静态观测概率矩阵,构建耦合模型。该方法在保留了隐马尔可夫序列建模能力的同时,通过融合多维度观测特征的分类算法加强了观测状态对隐藏状态指示能力的建模,不仅可用于将自发地理信息领域不规范地址文本数据映射为结构化地址要素信息,对于隐马尔可夫适用的其他序列状态建模场景具有普适的借鉴意义。义。义。

【技术实现步骤摘要】
基于隐马尔可夫与分类算法耦合的地址文本要素提取方法


[0001]本申请属于地理智能
,设计了一种地址文本中地址要素的提取方法,具体涉及一种基于隐马尔可夫与分类算法耦合的地址文本要素提取方法。

技术介绍

[0002]随着Web技术和自发地理信息(Volunteered Geographic Information,简称VGI)的发展,诸如OpenStreetMap、用户打卡记录等由用户通过移动互联网设备自发地贡献的地理空间信息,成为地理信息科学领域越来越重要的数据来源。其中非结构化的地理文本信息是其中一类重要的数据类型,将这些非结构化的文本数据映射为结果化的地理信息,已经成为地理信息系统领域重要的研究方向。
[0003]VGI中提供的地址文本数据,由于来自于众多用户自发创建,往往有着数据量巨大且数据不规范的特点,严重限制了数据的使用价值。因此,研发从地址文本中自动化解析行政区域名称、街道门牌号、POI名称、楼栋号等地址要素提取算法,对减少人工操作的依赖,更好发挥VGI地址文本价值有着至关重要的作用。地址要素提取方法依赖于中文分词方法,主要可以分为基于规则的提取方法、基于统计的提取方法、基于理解的提取方法三种,其中隐马尔可夫模型是一种较为可靠的统计方法,具有识别效率高、相对准确度高且易于训练等优点,但传统的隐马尔可夫模型需要完备地定义观察序列状态,存在单一观察序列约束,致使其虽然序列建模能力较强,但语义特征表达能力较弱。本专利技术针对这一问题,提出了一种隐马尔可夫与分类算法耦合的地址文本中地址要素提取方法,在保留隐马尔可夫序列规律建模能力的同时,通过耦合分类算法提升对地址文本语义特征建模的能力。

技术实现思路

[0004]针对隐马尔可夫模型存在单一观察序列约束,对地址文本语义特征建模能力较弱这一问题,本专利技术提供了一种隐马尔可夫与分类算法耦合的地址文本中地址要素提取方法,可较为准确地从地址文本中自动化提取地址要素。
[0005]本专利技术采用的技术方案为:基于隐马尔可夫与分类算法耦合的地址文本要素提取方法,包括以下步骤:
[0006]步骤S1,根据提取需求,预定义隐藏状态;
[0007]步骤S2,收集一定地址文本数据,进行数据预处理和标注,提取观察状态序列和隐藏状态序列,构造训练数据集;
[0008]步骤S3,基于S2中构建的训练数据集,提取词性、词义、词长、词序多个维度的特征,构建每个分词结果对应的特征向量,以特征向量作为输入,分词结果对应的隐藏状态作为类别标签,训练多分类模型;
[0009]步骤S4,使用S2训练数据集中的隐藏状态序列,基于极大似然原理估算初始概率向量和隐藏状态转移矩阵;
[0010]步骤S5,构建隐马尔可夫和分类算法耦合模型,将多分类模型作为观察概率矩阵
的动态生成器,与S4中得到初始概率向量和隐藏状态转移概率矩阵耦合,完成耦合模型建模;
[0011]步骤S6,利用初始状态概率向量、隐藏状态转移概率矩阵和动态生成的观察概率矩阵,求解输入词序列对应的最优隐藏状态序列;
[0012]步骤S7,地址要素的识别。
[0013]进一步的,步骤S1中隐藏状态根据地址要素的提取需求进行定义,将隐藏状态设置为要提取地址要素的开头部分、中间部分、结尾部分、前置部分、后置部分、无关部分。
[0014]进一步的,步骤S2中观察状态序列提取方式为,对地址文本数据进行分词,每个分词结果作为一个观察状态,将所有观察状态按照文本顺序关联到一块,则可获得观察状态序列;
[0015]隐藏状态序列提取方式为,对于观察状态序列中的每个节点,对照步骤S1中预定义的隐藏状态人工进行隐藏状态标注,得到观察状态序列对应的隐藏状态序列。
[0016]进一步的,步骤S3中,对于词性特征,可基于训练数据集计算每种词性对应各隐藏类别的类别概率向量,多种词性对应的类别概率向量形成词性特征矩阵;对于词义特征,可基于训练数据集计算每个分词结果对应各隐藏类别的tf

idf权重向量,所有分词结果对应的tf

idf权重向量组成词性特征矩阵;同时,词长即为每个分词结果对应的字符长度,词序为该分词结果对应观察状态序列中的位序。
[0017]进一步的,步骤S5中观察概率矩阵的动态生成器的使用方式如下;
[0018]将地址文本分词后的每个分词结果作为观察状态,构造观察特征向量,输入到S3构建的多分类模型,输出对于每个隐藏状态的类别概率向量,按照观察状态序列顺序,将类别概率向量按列拼接,动态生成观察概率矩阵。
[0019]进一步的,步骤S7中地址要素的识别的具体实现方式如下;
[0020]在模型预测得到的隐藏状态序列,分别寻找地址要素开头部分、结尾部分这两种隐藏状态,如果同时存在这两种隐藏状态,将词序列中这两种隐藏状态对应分词结果及其之间的部分按照词序列顺序拼接,即可得到该地址要素的完整信息;若在隐藏状态序列中仅存在地址要素开头部分这一种隐藏状态,则词序列中该隐藏状态对应的分词结果即为识别结果。
[0021]本专利技术还提供一种设备,所述设备包括:存储器、处理器以及存储在所述存储器上并在所述处理器上的地址文本要素提取程序,所述地址文本要素提取程序被所述处理器执行时实现上述技术方案所述的地址文本要素提取方法的步骤。
[0022]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有地址文本要素提取程序,所述地址文本要素提取程序被处理器执行上述技术方案所述的地址文本要素提取方法的步骤。
[0023]本专利技术技术方法带来的有益效果:利用多分类算法辅助隐马尔可夫模型对地址要素组成状态进行预测,在保留了隐马尔可夫对序列建模能力的同时,通过多维度观测特征和多分类算法加强了观测状态对隐藏状态指示能力的建模,增强了隐马尔克夫模型对序列数据的状态预测能力。该方法不仅可用于自发地理信息领域中用户上传的不规范地址字符串数据映射为结构化的地址要素信息,同时对于隐马尔克夫模型适用的序列状态建模场景都具有普适的借鉴意义。
附图说明
[0024]图1为技术方案图。
[0025]图2为建模流程图。详细说明了从数据预处理与标注、提取方法建模到识别结果输出的整个方法建模过程。
具体实施方式
[0026]下面结合附图并举实施例,对本专利技术的技术方案和详细建模流程进行说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]如图1所示,本申请提供的技术方案主要包括数据预处理与标注、提取方法建模、方法评价与优化三个模块的内容。
[0028]其中数据预处理与标注模块主要是对数据进行分词处理,根据提取需求,对分词后数据进行状态标注,从数据中提取观察状态序列和隐藏状态序列,为后续建模提供数据准备。提取方法建模部分,则根据预先提出的数据,完成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于隐马尔可夫与分类算法耦合的地址文本要素提取方法,其特征在于,包括以下步骤:步骤S1,根据提取需求,预定义隐藏状态;步骤S2,收集一定地址文本数据,进行数据预处理和标注,提取观察状态序列和隐藏状态序列,构造训练数据集;步骤S3,基于S2中构建的训练数据集,提取词性、词义、词长、词序多个维度的特征,构建每个分词结果对应的特征向量,以特征向量作为输入,分词结果对应的隐藏状态作为类别标签,训练多分类模型;步骤S4,使用S2训练数据集中的隐藏状态序列,基于极大似然原理估算初始概率向量和隐藏状态转移矩阵;步骤S5,构建隐马尔可夫和分类算法耦合模型,将多分类模型作为观察概率矩阵的动态生成器,与S4中得到初始概率向量和隐藏状态转移概率矩阵耦合,完成耦合模型建模;步骤S6,利用初始状态概率向量、隐藏状态转移概率矩阵和动态生成的观察概率矩阵,求解输入词序列对应的最优隐藏状态序列;步骤S7,地址要素的识别。2.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法,其特征在于:步骤S1中隐藏状态根据地址要素的提取需求进行定义,将隐藏状态设置为要提取地址要素的开头部分、中间部分、结尾部分、前置部分、后置部分、无关部分。3.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法,其特征在于:步骤S2中观察状态序列提取方式为,对地址文本数据进行分词,每个分词结果作为一个观察状态,将所有观察状态按照文本顺序关联到一块,则可获得观察状态序列;隐藏状态序列提取方式为,对于观察状态序列中的每个节点,对照步骤S1中预定义的隐藏状态人工进行隐藏状态标注,得到观察状态序列对应的隐藏状态序列。4.根据权利要求1所述的基于隐马尔可夫与分类算法耦合的地址文本要素提取方法,其特征在于:步骤S3中,对于词性特征,可基于训练数据集计算每种词性对应各隐藏类别的类别概率向量,多...

【专利技术属性】
技术研发人员:李锐刘朝辉
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1