地址要素解析方法、装置和电子设备制造方法及图纸

技术编号：31757274 阅读：13 留言：0更新日期：2022-01-05 16:40

本发明专利技术提供了一种地址要素解析方法、装置和电子设备，涉及数据处理的技术领域，包括：获取待解析地址数据；利用预设Lebert模型对待解析地址数据进行特征编码，得到目标地址编码；基于目标地址编码确定待解析地址数据的目标解析结果。本发明专利技术方法中，对待解析地址数据进行特征编码所使用的预设Lebert模型中，其attention计算采用非参数式的相对位置编码，相对位置编码能够有效的增强模型识别位置信息的能力，因此，基于目标地址编码所确定的目标解析结果能够较准确地识别处地址要素中实体的边界以及实体类型，从而缓解了现有的地址要素解析方法存在的解析结果准确性低的技术问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
地址要素解析方法、装置和电子设备

[0001]本专利技术涉及数据处理的
，尤其是涉及一种地址要素解析方法、装置和电子设备。

技术介绍

[0002]地址是日常生活中一种重要的文本信息，诸多场景需要登记地址，如电商购物、外卖配送、人口普查、水电气开户等。英文地址通常有严格的书写格式(从特殊到一般)，并且各个level的地址元素之间通常都会有空格或者其它一些特殊字符进行分离，这样能很好的区分各个地址元素的边界。但是对于中文地址，不同level的地址元素是连接在一起的，各个level的地址元素之间没有明显的boundary。同时由于对于地址的书写格式并没有进行严格的限制，实际中的地址往往存在一些问题，比如：地址不完整、地址中出现冗余(相同地址元素重复出现)、地址信息的不准确。
[0003]基于此，地址要素解析是非常必要的，地址要素解析是将地址文本拆分成具有独立语义的实体，并对这些实体进行类型识别的过程。现有的地址要素解析系统主要使用LSTM进行特征的编码，然后使用CRF来进行解码，但是上述方式往往无法很好识别地址要素中实体的边界以及实体类型，难以保证地址要素解析结果的准确性。

技术实现思路

[0004]本专利技术的目的在于提供一种地址要素解析方法、装置和电子设备，以缓解现有的地址要素解析方法存在的解析结果准确性低的技术问题。
[0005]第一方面，本专利技术提供一种地址要素解析方法，包括：获取待解析地址数据；利用预设Lebert模型对所述待解析地址数据进行特征编码，得到目标地址编码；其中...

【技术保护点】

【技术特征摘要】
1.一种地址要素解析方法，其特征在于，包括：获取待解析地址数据；利用预设Lebert模型对所述待解析地址数据进行特征编码，得到目标地址编码；其中，所述预设Lebert模型中的attention计算采用非参数式的相对位置编码；基于所述目标地址编码确定所述待解析地址数据的目标解析结果；其中，所述目标解析结果包括：每个实体的起始位置、每个所述实体的终止位置和每个所述实体的类型，所述实体表示所述待解析地址数据中具有独立语义的分词结果。2.根据权利要求1所述的方法，其特征在于，获取待解析地址数据，包括：获取原始地址数据；将所述原始地址数据中的无效字符进行过滤，得到所述待解析地址数据；其中，所述无效字符包括：网页链接、代码和标点符号。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取目标训练样本；其中，所述目标训练样本中包括多个训练地址数据；对每个所述训练地址数据执行遮蔽操作，得到遮蔽后的训练样本；利用遮蔽后的训练样本对初始Bert模型进行训练，得到目标Bert模型；在所述目标Bert模型的Encoder层之间添加适配器Adapter，以得到目标Lebert模型；其中，所述Adapter用于融合地址元素信息和外部词汇信息；调整所述目标Lebert模型中attention计算的编码方式为非参数式的相对位置编码，得到所述预设Lebert模型。4.根据权利要求3所述的方法，其特征在于，获取目标训练样本，包括：获取多个样本地址数据；对每个所述样本地址数据进行数据清洗，得到清洗后的样本地址数据；对每个所述清洗后的样本地址数据进行实体类型识别，得到具有实体类型标记的地址数据；对每个所述具有实体类型标记的地址数据进行数据增强，得到所述目标训练样本。5.根据权利要求4所述的方法，其特征在于，对每个所述具有实体类型标记的地址数据进行数据增强，包括：基于第一预设概率分布对每个所述具有实体类型标记的地址数据中的目标实体进行实体替换；其中，所述目标实体表示所述具有实体类型标记的地址数据中的任意一个实体；所述第一预设概率分布包括：第一概率和第二概率；所述第一概率为实体保持不变的概率，所述第二概率为实体被替换的概率；所述第一概率和所述第二概率的和为1；所述第二概率具体包括第二预设概率分布，所述第二预设概率分布包括：第一子概率、第二子概率和第三子概率；所述第一子概率为实体被随机替换的概率，第二子概率为实体被删除的概率，第三子概率为实体保持不变的概率；所述第一子概率、所述第二子概率和所述第三子概率的和为1。6.根据权利要求3所述的方法，其特征在于，对每个所述训练地址数据执行遮蔽操作，包括：基于第三预设概率分布对每个所述训练地址数据中预设比例的字符进行遮蔽，得到遮蔽后的训练样本；
其中，所述第三预设概率分布包括：第三概率、第四概率和第五概率；所述第三概率为字符被替换为预设遮蔽字符的概率，所述第四概率为字符保持不变的概率，所述第五概率为字符被随机替换的概率；所述第三概率、所述第四概率和所述第五概率的和为1。7.根据权利...

【专利技术属性】
技术研发人员：徐英浩，姚雪丹，陈树华，
申请(专利权)人：北京顶象技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人