基于词汇增强的中文地址要素解析方法、设备及存储介质技术

技术编号:34288391 阅读:50 留言:0更新日期:2022-07-27 08:52
本发明专利技术涉及数据处理技术领域,特别涉及一种基于词汇增强的中文地址要素解析方法、设备及存储介质,其中方法包括:获取中文地址文本;确定中文地址文本中的每个字符、词汇及对应的嵌入表示;将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、令牌在中文地址文本中的位置以及令牌之间的关联关系,构建平面图;基于平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码;基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;基于提取的特征进行分类,得到解析后的地址要素。本发明专利技术通过引入词汇的语义信息和边界信息,能够有效增强字符的语义信息,提升中文地址要素解析准确率。率。率。

【技术实现步骤摘要】
基于词汇增强的中文地址要素解析方法、设备及存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种基于词汇增强的中文地址 要素解析方法、设备及存储介质。

技术介绍

[0002]地址作为一种重要的文本数据,记录了社会生产活动及人的行为活动对 应的地理空间信息,在地理商业智能、城市治理、金融风控等领域有着重要 的应用价值。随着互联网、大数据以及地理信息系统的快速发展,公众对位 置信息的需求迅速增加,如何利用计算机快速、准确解析地址,成为备受关 注的内容。
[0003]中文地址要素解析指的是对中文地址文本拆分成具有独立语义的地址要 素实体,并将这些实体确定其对应的类别。中国幅员辽阔,地理文化差异大, 至今没有形成一个权威的、覆盖全国的地点命名标准,同时,日常应用中, 中文地址大部分是以非结构化文本的形式表达,数据结构复杂,随意性较强, 多伴随地址要素缺失或冗余等问题。因此,目前针对中文文本的地址要素解 析技术往往精确度偏低,不利于实际应用。

技术实现思路

[0004]基于中文地址要素解析精确度偏低的问题,本专利技术提供了一种中文地址 要素解析方法、设备及存储介质,能够有效提高中文地址要素解析的精确度。
[0005]第一方面,本专利技术实施例提供了一种中文地址要素解析方法,包括:
[0006]获取待解析的中文地址文本;
[0007]确定所述中文地址文本中的每个字符及对应的嵌入表示;
[0008]确定所述中文地址文本中的每个词汇及对应的嵌入表示;
[0009]将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、 令牌在所述中文地址文本中的位置以及令牌之间的关联关系,构建平面图; 其中,所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾 位置信息构成,用于提供词汇的语义信息和边界信息;
[0010]基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌 之间的最终相对位置编码;
[0011]基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;
[0012]基于提取的特征进行分类,得到解析后的地址要素。
[0013]可选地,所述确定所述中文地址文本中的每个词汇及对应的嵌入表示, 包括:
[0014]确定所述中文地址文本对应的词典;
[0015]基于所述词典,建立字典树;
[0016]基于所述字典树,对所述中文地址文本进行匹配,得到所述中文地址文 本中的每个词汇;
[0017]基于所述词典对应的嵌入表示资源库,获取所述中文地址文本中每个词 汇的嵌
入表示。
[0018]可选地,所述平面图包括的第一平面图和第二平面图,其中,所述第一 平面图为平面晶格结构,用于表示字符与自匹配词汇关联关系,所述第二平 面图为平面转移结构,用于表示字符与最近上下文词汇关联关系;
[0019]所述基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个 令牌之间的最终相对位置编码,包括:对于每两个令牌,均执行如下步骤:
[0020]分别基于所述第一平面图和所述第二平面图,计算两个令牌之间的相对 位置编码;
[0021]将分别基于所述第一平面图和所述第二平面图计算得到的相对位置编码 进行拼接,经过神经网络的线性变换,得到两个令牌之间的最终相对位置编 码。
[0022]可选地,所述计算两个令牌之间的相对位置编码包括:
[0023]确定两个令牌在句子中对应的头尾位置信息,包括头位置和尾位置;
[0024]确定两个令牌之间的头头、头尾、尾头和尾尾四种相对距离;
[0025]若两个令牌之间存在包含关系,则对确定的四种相对距离同时进行缩小;
[0026]对四种相对距离做非线性变换,得到相对位置编码。
[0027]可选地,所述对确定的四种相对距离同时进行缩小,包括:
[0028]对确定的四种相对距离同时乘以e
w
,进行指数缩小;其中,w为两个令 牌之间头头和尾尾两种相对距离的乘积。
[0029]可选地,所述确定两个令牌在句子中对应的头尾位置信息,包括:
[0030]若令牌为字符,其头位置和尾位置相同,均为该字符在句子中的位置;
[0031]若令牌为词汇,对于所述第一平面图,其头位置、尾位置分别为该词汇 的起、止字符在句子中的位置,对于所述第二平面图,其头位置、尾位置分 别为该词汇的前、后相邻字符在句子中的位置,且不超出句子范围。
[0032]可选地,所述确定所述中文地址文本中的每个字符及对应的嵌入表示, 包括:
[0033]将所述中文地址文本输入预训练的BERT模型,确定所述中文地址文本 中的每个字符及对应的嵌入表示。
[0034]第二方面,本专利技术实施例还提供了一种虚假地址识别方法,包括:
[0035]基于如上述任一项所述的基于词汇增强的中文地址要素解析方法,进行 地址要素解析;
[0036]对地址要素进行层级判定,若存在不同名的同级地址实体,则识别为虚 假地址,否则继续执行下一步骤;
[0037]将地址要素与五层级地址库进行匹配,得到相应的地址编码,校验较高 层级地址要素对应的地址编码与较低层级地址要素对应的地址编码是否具有 正确的相关性,是则继续执行下一步骤,否则识别为虚假地址;
[0038]根据地址要素化分第一地址和第二地址,基于所述第一地址确定地理围 栏,基于所述第二地址确定经纬度坐标,校验所述地理围栏与所述经纬度坐 标之间的位置关系是否有误,是则识别为虚假地址,否则识别为真实地址; 其中,所述第一地址包括省级、市级和区级的地址要素,所述第二地址包括 除省级、市级和区级之外的所有低层级地址要素。
[0039]第三方面,本专利技术实施例还提供了一种设备,包括存储器和处理器,所 述存储器
中存储有计算机程序,所述处理器执行所述计算机程序时,实现本 说明书任一实施例所述的方法。
[0040]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储 有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明 书任一实施例所述的方法。
[0041]本专利技术实施例提供了一种基于词汇增强的中文地址要素解析方法、设备 及存储介质,本专利技术将词汇信息融入中文地址要素解析过程,融合词汇的语 义信息和边界信息,有效增强字符的语义信息,提升最终的中文地址要素解 析准确率。
[0042]本专利技术实施例还提供了一种虚假地址识别方法、设备及存储介质,本发 明基于解析得到的地址要素进行多轮分析与判断,最终确定输入的地址是否 为虚假地址,能够有效地识别中文地址文本中的虚假地址。
附图说明
[0043]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的中文地址要素解析方法,其特征在于,包括:获取待解析的中文地址文本;确定所述中文地址文本中的每个字符及对应的嵌入表示;确定所述中文地址文本中的每个词汇及对应的嵌入表示;将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、令牌在所述中文地址文本中的位置以及令牌之间的关联关系,构建平面图;其中,所述平面图由令牌本身对应的嵌入表示以及令牌在句子中对应的头尾位置信息构成,用于提供词汇的语义信息和边界信息;基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码;基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;基于提取的特征进行分类,得到解析后的地址要素。2.根据权利要求1所述的中文地址要素解析方法,其特征在于,所述确定所述中文地址文本中的每个词汇及对应的嵌入表示,包括:确定所述中文地址文本对应的词典;基于所述词典,建立字典树;基于所述字典树,对所述中文地址文本进行匹配,得到所述中文地址文本中的每个词汇;基于所述词典对应的嵌入表示资源库,获取所述中文地址文本中每个词汇的嵌入表示。3.根据权利要求1所述的中文地址要素解析方法,其特征在于,所述平面图包括的第一平面图和第二平面图,其中,所述第一平面图为平面晶格结构,用于表示字符与自匹配词汇关联关系,所述第二平面图为平面转移结构,用于表示字符与最近上下文词汇关联关系;所述基于所述平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码,包括:对于每两个令牌,均执行如下步骤:分别基于所述第一平面图和所述第二平面图,计算两个令牌之间的相对位置编码;将分别基于所述第一平面图和所述第二平面图计算得到的相对位置编码进行拼接,经过神经网络的线性变换,得到两个令牌之间的最终相对位置编码。4.根据权利要求3所述的中文地址要素解析方法,其特征在于,所述计算两个令牌之间的相对位置编码包括:确定两个令牌在句子中对应的头尾位置信息,包括头位置和尾位置;确定两个令牌之间的头头、头尾、尾头和尾尾四种相对距离;若两个令牌之间存在包含关系,则对确定的四种相对距离同时进行缩小;对四种相对距离做非线性变换,得到相对位置编码。5.根据权利要求4所述的中文地址要...

【专利技术属性】
技术研发人员:傅湘玲申艳廷仵伟强陈松龄沈耀迪
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1