地址要素解析方法、装置和电子设备制造方法及图纸

技术编号:31757274 阅读:13 留言:0更新日期:2022-01-05 16:40
本发明专利技术提供了一种地址要素解析方法、装置和电子设备,涉及数据处理的技术领域,包括:获取待解析地址数据;利用预设Lebert模型对待解析地址数据进行特征编码,得到目标地址编码;基于目标地址编码确定待解析地址数据的目标解析结果。本发明专利技术方法中,对待解析地址数据进行特征编码所使用的预设Lebert模型中,其attention计算采用非参数式的相对位置编码,相对位置编码能够有效的增强模型识别位置信息的能力,因此,基于目标地址编码所确定的目标解析结果能够较准确地识别处地址要素中实体的边界以及实体类型,从而缓解了现有的地址要素解析方法存在的解析结果准确性低的技术问题。问题。问题。

【技术实现步骤摘要】
地址要素解析方法、装置和电子设备


[0001]本专利技术涉及数据处理的
,尤其是涉及一种地址要素解析方法、装置和电子设备。

技术介绍

[0002]地址是日常生活中一种重要的文本信息,诸多场景需要登记地址,如电商购物、外卖配送、人口普查、水电气开户等。英文地址通常有严格的书写格式(从特殊到一般),并且各个level的地址元素之间通常都会有空格或者其它一些特殊字符进行分离,这样能很好的区分各个地址元素的边界。但是对于中文地址,不同level的地址元素是连接在一起的,各个level的地址元素之间没有明显的boundary。同时由于对于地址的书写格式并没有进行严格的限制,实际中的地址往往存在一些问题,比如:地址不完整、地址中出现冗余(相同地址元素重复出现)、地址信息的不准确。
[0003]基于此,地址要素解析是非常必要的,地址要素解析是将地址文本拆分成具有独立语义的实体,并对这些实体进行类型识别的过程。现有的地址要素解析系统主要使用LSTM进行特征的编码,然后使用CRF来进行解码,但是上述方式往往无法很好识别地址要素中实体的边界以及实体类型,难以保证地址要素解析结果的准确性。

技术实现思路

[0004]本专利技术的目的在于提供一种地址要素解析方法、装置和电子设备,以缓解现有的地址要素解析方法存在的解析结果准确性低的技术问题。
[0005]第一方面,本专利技术提供一种地址要素解析方法,包括:获取待解析地址数据;利用预设Lebert模型对所述待解析地址数据进行特征编码,得到目标地址编码;其中,所述预设Lebert模型中的attention计算采用非参数式的相对位置编码;基于所述目标地址编码确定所述待解析地址数据的目标解析结果;其中,所述目标解析结果包括:每个实体的起始位置、每个所述实体的终止位置和每个所述实体的类型,所述实体表示所述待解析地址数据中具有独立语义的分词结果。
[0006]在可选的实施方式中,获取待解析地址数据,包括:获取原始地址数据;将所述原始地址数据中的无效字符进行过滤,得到所述待解析地址数据;其中,所述无效字符包括:网页链接、代码和标点符号。
[0007]在可选的实施方式中,所述方法还包括:获取目标训练样本;其中,所述目标训练样本中包括多个训练地址数据;对每个所述训练地址数据执行遮蔽操作,得到遮蔽后的训练样本;利用遮蔽后的训练样本对初始Bert模型进行训练,得到目标Bert模型;在所述目标Bert模型的Encoder层之间添加适配器Adapter,以得到目标Lebert模型;其中,所述Adapter用于融合地址元素信息和外部词汇信息;调整所述目标Lebert模型中attention计算的编码方式为非参数式的相对位置编码,得到所述预设Lebert模型。
[0008]在可选的实施方式中,获取目标训练样本,包括:获取多个样本地址数据;对每个
所述样本地址数据进行数据清洗,得到清洗后的样本地址数据;对每个所述清洗后的样本地址数据进行实体类型识别,得到具有实体类型标记的地址数据;对每个所述具有实体类型标记的地址数据进行数据增强,得到所述目标训练样本。
[0009]在可选的实施方式中,对每个所述具有实体类型标记的地址数据进行数据增强,包括:基于第一预设概率分布对每个所述具有实体类型标记的地址数据中的目标实体进行实体替换;其中,所述目标实体表示所述具有实体类型标记的地址数据中的任意一个实体;所述第一预设概率分布包括:第一概率和第二概率;所述第一概率为实体保持不变的概率,所述第二概率为实体被替换的概率;所述第一概率和所述第二概率的和为1;所述第二概率具体包括第二预设概率分布,所述第二预设概率分布包括:第一子概率、第二子概率和第三子概率;所述第一子概率为实体被随机替换的概率,第二子概率为实体被删除的概率,第三子概率为实体保持不变的概率;所述第一子概率、所述第二子概率和所述第三子概率的和为1。
[0010]在可选的实施方式中,对每个所述训练地址数据执行遮蔽操作,包括:基于第三预设概率分布对每个所述训练地址数据中预设比例的字符进行遮蔽,得到遮蔽后的训练样本;其中,所述第三预设概率分布包括:第三概率、第四概率和第五概率;所述第三概率为字符被替换为预设遮蔽字符的概率,所述第四概率为字符保持不变的概率,所述第五概率为字符被随机替换的概率;所述第三概率、所述第四概率和所述第五概率的和为1。
[0011]在可选的实施方式中,所述预设Lebert模型中的attention计算采用如下算式:其中,q
i
表示地址数据中第i个元素的query向量,x
i
表示所述第i个元素经过所述预设Lebert模型中embedding层映射后得到的特征,W
Q
表示第一预设参数矩阵,W
K
表示第二预设参数矩阵,W
V
表示第三预设参数矩阵,x
j
表示地址数据中第j个元素经过所述预设Lebert模型中embedding层映射后得到的特征,k
j
表示所述第j个元素的key向量,v
j
表示所述第j个元素的value向量,a
i,j
表示所述第i个元素和所述第j个元素的attention得分,o
i
表示所述第i个元素经过attention后的特征向量,R
i,j
表示所述第i个元素和所述第j个元素的相对位置编码,且R
i,j
通过以下算式进行计算:其中,k表示隐藏向量中的第k个位置的索引,d
z
表示所述隐藏向量的维度。
[0012]在可选的实施方式中,基于所述目标地址编码确定所述待解析地址数据的目标解析结果,包括:利用预设指针网络对所述目标地址编码进行处理,得到所述待解析地址数据
的初始解析结果;其中,所述初始解析结果中包括所述待解析地址数据中的所有可选实体;判断所述所有可选实体中是否存在实体嵌套;其中,所述实体嵌套表示实体之间存在重叠字符;若存在,则基于预设规则对所述初始解析结果进行处理,得到所述目标解析结果;其中,所述预设规则包括:若相邻两个实体是相同实体类型,则保留第一个字符出现顺序相对靠前的实体;若相邻两个实体是不同实体类型,则修正第一实体的终止位置为第二实体的起始位置的前一位;其中,所述第一实体为所述相邻两个实体中第一个字符出现顺序相对靠前的实体;所述第二实体为第一个字符出现顺序相对所述第一实体靠后的实体。
[0013]第二方面,本专利技术提供一种地址要素解析装置,包括:第一获取模块,用于获取待解析地址数据;编码模块,用于利用预设Lebert模型对所述待解析地址数据进行特征编码,得到目标地址编码;其中,所述预设Lebert模型中的attention计算采用非参数式的相对位置编码;确定模块,用于基于所述目标地址编码确定所述待解析地址数据的目标解析结果;其中,所述目标解析结果包括:每个实体的起始位置、每个所述实体的终止位置和每个所述实体的类型,所述实体表示所述待解析地址数据中具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址要素解析方法,其特征在于,包括:获取待解析地址数据;利用预设Lebert模型对所述待解析地址数据进行特征编码,得到目标地址编码;其中,所述预设Lebert模型中的attention计算采用非参数式的相对位置编码;基于所述目标地址编码确定所述待解析地址数据的目标解析结果;其中,所述目标解析结果包括:每个实体的起始位置、每个所述实体的终止位置和每个所述实体的类型,所述实体表示所述待解析地址数据中具有独立语义的分词结果。2.根据权利要求1所述的方法,其特征在于,获取待解析地址数据,包括:获取原始地址数据;将所述原始地址数据中的无效字符进行过滤,得到所述待解析地址数据;其中,所述无效字符包括:网页链接、代码和标点符号。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取目标训练样本;其中,所述目标训练样本中包括多个训练地址数据;对每个所述训练地址数据执行遮蔽操作,得到遮蔽后的训练样本;利用遮蔽后的训练样本对初始Bert模型进行训练,得到目标Bert模型;在所述目标Bert模型的Encoder层之间添加适配器Adapter,以得到目标Lebert模型;其中,所述Adapter用于融合地址元素信息和外部词汇信息;调整所述目标Lebert模型中attention计算的编码方式为非参数式的相对位置编码,得到所述预设Lebert模型。4.根据权利要求3所述的方法,其特征在于,获取目标训练样本,包括:获取多个样本地址数据;对每个所述样本地址数据进行数据清洗,得到清洗后的样本地址数据;对每个所述清洗后的样本地址数据进行实体类型识别,得到具有实体类型标记的地址数据;对每个所述具有实体类型标记的地址数据进行数据增强,得到所述目标训练样本。5.根据权利要求4所述的方法,其特征在于,对每个所述具有实体类型标记的地址数据进行数据增强,包括:基于第一预设概率分布对每个所述具有实体类型标记的地址数据中的目标实体进行实体替换;其中,所述目标实体表示所述具有实体类型标记的地址数据中的任意一个实体;所述第一预设概率分布包括:第一概率和第二概率;所述第一概率为实体保持不变的概率,所述第二概率为实体被替换的概率;所述第一概率和所述第二概率的和为1;所述第二概率具体包括第二预设概率分布,所述第二预设概率分布包括:第一子概率、第二子概率和第三子概率;所述第一子概率为实体被随机替换的概率,第二子概率为实体被删除的概率,第三子概率为实体保持不变的概率;所述第一子概率、所述第二子概率和所述第三子概率的和为1。6.根据权利要求3所述的方法,其特征在于,对每个所述训练地址数据执行遮蔽操作,包括:基于第三预设概率分布对每个所述训练地址数据中预设比例的字符进行遮蔽,得到遮蔽后的训练样本;
其中,所述第三预设概率分布包括:第三概率、第四概率和第五概率;所述第三概率为字符被替换为预设遮蔽字符的概率,所述第四概率为字符保持不变的概率,所述第五概率为字符被随机替换的概率;所述第三概率、所述第四概率和所述第五概率的和为1。7.根据权利...

【专利技术属性】
技术研发人员:徐英浩姚雪丹陈树华
申请(专利权)人:北京顶象技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1