一种电网地址结构化的处理方法及装置制造方法及图纸

技术编号:30826302 阅读:25 留言:0更新日期:2021-11-18 12:25
本发明专利技术公开了一种电网地址结构化的处理方法及装置,该方法包括:将目标电网地址输入至条件随机场模型,得到目标电网地址对应的目标地址分词结果,其中,条件随机场模型是基于标准地址数据库预先训练得到的;根据预设的地址分级模型,对目标地址分词结果进行分级匹配,得到目标电网地址对应的目标地址分级结果;将目标地址分级结果确定为目标电网地址的结构化地址。可见,本发明专利技术能够提供一种高效的地址结构化方案,对非结构化的电网地址进行快速分词、准确分级匹配,实现对非结构化的电网地址进行结构化的处理,提高电网地址结构化效率及准确率。率及准确率。率及准确率。

【技术实现步骤摘要】
一种电网地址结构化的处理方法及装置


[0001]本专利技术涉及电网
,尤其涉及一种电网地址结构化的处理方法及装置。

技术介绍

[0002]地址信息在社会活动中无处不在,尤其在电力系统领域,随着电网系统的不断扩张,电网地址信息同样以指数形式增长,对电网地址进行规范的结构化越来越受到大家的重视。
[0003]实际应用过程中,电力管理系统中对电网地址进行结构化处理,通常是基于地址词典来实现,基于地址词典即预先建立地址数据的词库,在地址词库中遍历搜索匹配,进而找出相同的地址数据,建立不同来源数据之间的关联关系。然而,这种方法在面对复杂电网地址场景时,存在地址数据匹配效率低且匹配准确率低的问题,这导致了电网地址结构化效率低且准确低的问题,无法满足业务对标准地址的需求。
[0004]可见,提供一种高效的电网地址结构化的处理方法以提高结构化效率及准确率显得尤为重要。

技术实现思路

[0005]本专利技术提供了一种电网地址结构化的处理方法及装置,能够提供一种高效的地址结构化方案,对非结构化的电网地址进行快速分词、准确分级匹配,实现对非结构化的电网地址进行结构化的处理,提高电网地址结构化效率及准确率。
[0006]为了解决上述技术问题,本专利技术第一方面公开了一种电网地址结构化的处理方法,所述方法包括:
[0007]将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果,其中,所述条件随机场模型是基于所述标准地址数据库预先训练得到的;
[0008]根据预设的地址分级模型,对所述目标地址分词结果进行分级匹配,得到所述目标电网地址对应的目标地址分级结果;
[0009]将所述目标地址分级结果确定为所述目标电网地址的结构化地址。
[0010]作为一种可选的实施方式,在本专利技术第一方面中,所述将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果,包括:
[0011]根据预设的词位标签以及条件随机场的特征模板,对所述目标电网地址进行分词处理,得到所述目标电网地址对应的多个地址分词结果,其中,每个所述地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签;
[0012]根据每个所述分词字段中每个字对应的词位标签的统计数据,构建概率图模型;
[0013]根据所述概率图模型,计算每个所述地址分词结果对应的概率值;
[0014]从所有所述地址分词结果中筛选出概率值最大的地址分词结果,确定为所述目标电网地址对应的目标地址分词结果。
[0015]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述概率图模型,计算
每个所述地址分词结果对应的概率值,包括:
[0016]根据所述概率图模型,采用动态规划算法求解所述概率图模型,得到每个所述地址分词结果对应的概率值;
[0017]其中,所述动态规划算法包括前向算法、后向算法、维特比算法中的至少一种动态规划算法。
[0018]作为一种可选的实施方式,在本专利技术第一方面中,所述根据预设的地址分级模型,对所述目标地址分词结果进行分级匹配,得到所述目标电网地址对应的目标地址分级结果,包括:
[0019]根据预设的地址分级模型,确定每个地址分级对应的分级标签;
[0020]将所述目标地址分词结果中的每个分词字段与所述标准地址数据库中的分级内容进行匹配,得到每个所述分词字段对应的多个分级匹配结果以及每个所述分级匹配结果对应的概率值;
[0021]针对每个所述分词字段,从所述分词字段对应的所有所述分级匹配结果中筛选出概率值最大的分级匹配结果,确定为所述分词字段的最优地址分级结果;
[0022]根据每个所述分词字段的最优地址分级结果,确定每个所述分词字段的目标分级标签;
[0023]在每个所述分词字段之后添加每个所述分词字段的目标分级标签,得到每个所述分词字段对应的地址分级结果;
[0024]将所有所述分词字段对应的地址分级结果确定为所述目标电网地址对应的目标地址分级结果。
[0025]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0026]在所述将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果之前,获取待处理电网地址,并对所述待处理电网地址进行预处理操作,得到所述待处理电网地址对应的目标电网地址,所述预处理操作用于将所述待处理电网地址转化成条件随机场模型所要求的数据格式;
[0027]其中,所述预处理操作包括特殊字符清理、无效字段清理、添加词位标签中的至少一种。
[0028]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0029]获取来自外部系统的历史地址,根据统一化标准模型,对所有所述历史地址进行地址统一化操作,得到多个统一化地址,其中,每个所述统一化地址对应多个所述历史地址,所述统一化标准模型包括同义词模型、同音字模型、错别字模型、历史描述模型、简易描述模型中的至少一种;
[0030]将所有所述统一化地址确定为标准地址,并将所有所述标准地址添加到标准地址数据库。
[0031]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:
[0032]从所述标准地址数据库中筛选出与所述目标电网地址的结构化地址相匹配的目标标准地址;
[0033]生成所述目标标准地址与所述目标电网地址的结构化地址之间的关联关系表,其中,所述关联关系表包括所述目标标准地址的地址信息、所述目标标准地址的地理空间坐
标以及所述目标标准地址对应的多个历史地址。
[0034]本专利技术第二方面公开了一种电网地址结构化的处理装置,所述装置包括:
[0035]分词模块,用于将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果,其中,所述条件随机场模型是基于所述标准地址数据库预先训练得到的;
[0036]分级模块,用于根据预设的地址分级模型,对所述目标地址分词结果进行分级匹配,得到所述目标电网地址对应的目标地址分级结果;
[0037]确定模块,用于将所述目标地址分级结果确定为所述目标电网地址的结构化地址。
[0038]作为一种可选的实施方式,在本专利技术第二方面中,所述分词模块模块,包括:
[0039]分词子模块,用于根据预设的词位标签以及条件随机场的特征模板,对所述目标电网地址进行分词处理,得到所述目标电网地址对应的多个地址分词结果,其中,每个所述地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签;
[0040]统计子模块,用于根据每个所述分词字段中每个字对应的词位标签的统计数据,构建概率图模型;
[0041]计算子模块,用于根据所述概率图模型,计算每个所述地址分词结果对应的概率值;
[0042]筛选子模块,用于从所有所述地址分词结果中筛选出概率值最大的地址分词结果,确定为所述目标电网地址对应的目标地址本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电网地址结构化的处理方法,其特征在于,所述方法包括:将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果,其中,所述条件随机场模型是基于所述标准地址数据库预先训练得到的;根据预设的地址分级模型,对所述目标地址分词结果进行分级匹配,得到所述目标电网地址对应的目标地址分级结果;将所述目标地址分级结果确定为所述目标电网地址的结构化地址。2.根据权利要求1所述的电网地址结构化的处理方法,其特征在于,所述将目标电网地址输入至条件随机场模型,得到所述目标电网地址对应的目标地址分词结果,包括:根据预设的词位标签以及条件随机场的特征模板,对所述目标电网地址进行分词处理,得到所述目标电网地址对应的多个地址分词结果,其中,每个所述地址分词结果包括多个分词字段以及每个分词字段中每个字对应的词位标签;根据每个所述分词字段中每个字对应的词位标签的统计数据,构建概率图模型;根据所述概率图模型,计算每个所述地址分词结果对应的概率值;从所有所述地址分词结果中筛选出概率值最大的地址分词结果,确定为所述目标电网地址对应的目标地址分词结果。3.根据权利要求2所述的电网地址结构化的处理方法,其特征在于,所述根据所述概率图模型,计算每个所述地址分词结果对应的概率值,包括:根据所述概率图模型,采用动态规划算法求解所述概率图模型,得到每个所述地址分词结果对应的概率值;其中,所述动态规划算法包括前向算法、后向算法、维特比算法中的至少一种动态规划算法。4.根据权利要求1所述的电网地址结构化的处理方法,其特征在于,所述根据预设的地址分级模型,对所述目标地址分词结果进行分级匹配,得到所述目标电网地址对应的目标地址分级结果,包括:根据预设的地址分级模型,确定每个地址分级对应的分级标签;将所述目标地址分词结果中的每个分词字段与所述标准地址数据库中的分级内容进行匹配,得到每个所述分词字段对应的多个分级匹配结果以及每个所述分级匹配结果对应的概率值;针对每个所述分词字段,从所述分词字段对应的所有所述分级匹配结果中筛选出概率值最大的分级匹配结果,确定为所述分词字段的最优地址分级结果;根据每个所述分词字段的最优地址分级结果,确定每个所述分词字段的目标分级标签;在每个所述分词字段之后添加每个所述分词字段的目标分级标签,得到每个所述分词字段对应的地址分级结果;将所有所述分词字段对应的地址分级结果确定为所述目标电网地址对应的目标地址分级结果。5.根据权利要求1所述的电网地址结构化的处理方法,其特征在于,在所述将目标电网地址输入至条件随机场模型,...

【专利技术属性】
技术研发人员:蔡文婷
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1