本发明专利技术涉及人工智能领域,揭露一种保单地址识别方法、装置、电子设备及存储介质,可用于对保险保单中不清楚的地址信息进行识别,所述方法包括:获取保单的地址文本,对所述地址文本进行分词处理,得到地址分词文本;对所述地址分词文本中的词语进行词性标注,得到地址词语词性;根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语;根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签;根据所述类别标签,对所述地名词语进行结构标准化处理,得到所述保单的标准地址文本。本发明专利技术可以提高保单地址识别的效率及准确率。率。率。
【技术实现步骤摘要】
保单地址识别方法、装置、电子设备及可读存储介质
[0001]本专利技术涉及人工智能领域,尤其涉及一种保单地址识别方法、装置、电子设备及可读存储介质。
技术介绍
[0002]在保险行业中,再保险保单地址经常由于录单不规范、地址变化、标的地址与保单地址混淆等问题,导致异常地址出现,降低了再保险的效率。目前这些异常地址主要依靠人工识别和处理,导致保单地址识别效率低下、人工成本高昂、易出现错误。
技术实现思路
[0003]本专利技术提供一种保单地址识别方法、装置、电子设备及可读存储介质,有效地提高了金融文本分类的便捷性及准确率,其目的在于提高保单地址识别的效率及准确率。
[0004]为实现上述目的,本专利技术提供的一种保单地址识别方法,所述方法包括:
[0005]获取保单的地址文本,对所述地址文本进行分词处理,得到地址分词文本;
[0006]对所述地址分词文本中的词语进行词性标注,得到地址词语词性;
[0007]根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语;
[0008]根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签;
[0009]根据所述类别标签,对所述地名词语进行结构标准化处理,得到所述保单的标准地址文本。
[0010]可选地,所述根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签,包括:
[0011]利用词袋模型将所述地名词语转化为地名特征向量;
[0012]计算预设朴素贝叶斯模型中每个类别标签的先验概率;
[0013]根据所述先验概率,利用所述预设朴素贝叶斯模型计算所述每个类别标签下所述地名特征向量出现的条件概率;
[0014]根据所述条件概率,利用所述预设朴素贝叶斯模型计算所述地名特征向量是任意一个类别标签的后验概率;
[0015]根据所述后验概率,识别所述地名特征向量对应地名词语的类别标签。
[0016]可选地,所述根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语,包括:
[0017]根据所述地址词语词性,对所述地址分词文本进行词语删留处理,得到保留的地址分词文本词语;
[0018]利用预设的命名实体识别模型中的编码层对所述地址分词文本词语进行编码,得到词向量矩阵;
[0019]利用所述命名实体识别模型中的卷积层对所述词向量矩阵进行特征提取,得到词
向量特征矩阵;
[0020]利用所述命名实体识别模型中的池化层对所述词向量特征矩阵进行特征降维处理,得到词向量特征降维矩阵;
[0021]利用所述命名实体识别模型中的全连接层对所述词向量特征降维矩阵进行概率计算,得到所述词向量特征降维矩阵对应的各个词汇具有地名含义的概率;
[0022]根据所述概率从所述地址分词文本中的词语筛选出具有地名含义的地名词语。
[0023]可选地,所述对所述地址分词文本中的词语进行词性标注,得到地址词语词性,包括:
[0024]利用预设的隐马尔可夫模型对所述地址分词文本进行编码,得到地址文本观察序列;
[0025]分别计算所述地址文本观察序列的前向概率及后向概率,并根据所述前向概率及后向概率计算每个时刻所述地址文本观察序列中存在隐藏状态的概率最大的词汇;
[0026]根据每个时刻所述地址文本观察序列中存在隐藏状态的概率最大的词汇,对所述地址文本观察序列进行时间路径回溯,得到地址文本观察序列的隐藏状态序列:
[0027]对所述隐藏状态序列进行解码,得到地址词语词性。
[0028]可选地,所述对所述地址文本进行分词处理,得到地址分词文本,包括:
[0029]对所述地址文本进行特殊符号去除处理,得到第一预处理地址文本;
[0030]对所述第一预处理地址文本进行停用词去除处理,得到第二预处理地址文本;
[0031]对所述第二预处理地址文本进行词语随机组合,得到多种组合的地址文本词语;
[0032]根据预设的地址词汇权重模型计算每个所述地址文本词语的词汇组合权重;
[0033]根据所述词汇组合权重的大小对所述第二预处理地址文本进行分词,得到地址分词文本。
[0034]可选地,所述根据所述类别标签,对所述地名词语进行结构标准化处理,得到所述保单的标准地址文本,包括:
[0035]构建地址字典,并判断所述地址字典中是否存在所述地名词语;
[0036]若所述地址字典中存在所述地名词语,则根据所述类别标签,将所述地名词语按照预设格式进行整理,得到标准地址文本;
[0037]若所述地址字典中不存在所述地名词语,则使用规则匹配算法计算所述地名词语属于地名的概率;
[0038]根据所述概率及所述类别标签,将所述地名词语按照预设格式进行整理,得到标准地址文本。
[0039]为了解决上述问题,本专利技术还提供一种保单地址识别装置,所述装置包括:
[0040]地址文本预处理模块,用于获取保单的地址文本,对所述地址文本进行分词处理,得到地址分词文本,对所述地址分词文本中的词语进行词性标注,得到地址词语词性,根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语;
[0041]地名词语类别预测模块,用于根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签;
[0042]地名词语标准化模块,用于根据所述类别标签,对所述地名词语进行结构标准化
处理,得到所述保单的标准地址文本。
[0043]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0044]存储器,存储至少一个计算机程序;及
[0045]处理器,执行所述存储器中存储的计算机程序以实现上述所述的保单地址识别方法。
[0046]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的保单地址识别方法。
[0047]本专利技术实施例对保单的地址文本进行一系列的自然语言处理,将输入的非结构化地址文本进行预处理和分析,提高了地址文本的自动识别和处理效率,降低了人工处理成本,提高了保单地址识别的智能化程度,减少了错误率,进一步地,根据预设地址字典,利用规则匹配算法,对所述预测地址文本进行结构标准化处理,能够适应各类地址信息的处理需求,提高了保单地址识别的灵活性及适应性,提高了保单地址识别的准确率。因此,本专利技术提供的一种保单地址识别方法、装置、设备及存储介质,能够提高保单地址识别的效率及准确率。
附图说明
[0048]图1为本专利技术一实施例提供的保单地址识别方法的流程示意图;
[0049]图2及图3为本专利技术一实施例提供的保单地址识别方法的中其中一个步骤的详细实施流程图;
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种保单地址识别方法,其特征在于,所述方法包括:获取保单的地址文本,对所述地址文本进行分词处理,得到地址分词文本;对所述地址分词文本中的词语进行词性标注,得到地址词语词性;根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语;根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签;根据所述类别标签,对所述地名词语进行结构标准化处理,得到所述保单的标准地址文本。2.如权利要求1所述的保单地址识别方法,其特征在于,所述根据所述地名词语,利用预设朴素贝叶斯模型预测所述地名词语的类别标签,包括:利用词袋模型将所述地名词语转化为地名特征向量;计算预设朴素贝叶斯模型中每个类别标签的先验概率;根据所述先验概率,利用所述预设朴素贝叶斯模型计算所述每个类别标签下所述地名特征向量出现的条件概率;根据所述条件概率,利用所述预设朴素贝叶斯模型计算所述地名特征向量是任意一个类别标签的后验概率;根据所述后验概率,识别所述地名特征向量对应地名词语的类别标签。3.如权利要求1所述的保单地址识别方法,其特征在于,所述根据所述地址词语词性,对所述地址分词文本中的词语进行命名实体识别,筛选出具有地名含义的地名词语,包括:根据所述地址词语词性,对所述地址分词文本进行词语删留处理,得到保留的地址分词文本词语;利用预设的命名实体识别模型中的编码层对所述地址分词文本词语进行编码,得到词向量矩阵;利用所述命名实体识别模型中的卷积层对所述词向量矩阵进行特征提取,得到词向量特征矩阵;利用所述命名实体识别模型中的池化层对所述词向量特征矩阵进行特征降维处理,得到词向量特征降维矩阵;利用所述命名实体识别模型中的全连接层对所述词向量特征降维矩阵进行概率计算,得到所述词向量特征降维矩阵对应的各个词汇具有地名含义的概率;根据所述概率从所述地址分词文本中的词语筛选出具有地名含义的地名词语。4.如权利要求1所述的保单地址识别方法,其特征在于,所述对所述地址分词文本中的词语进行词性标注,得到地址词语词性,包括:利用预设的隐马尔可夫模型对所述地址分词文本进行编码,得到地址文本观察序列;分别计算所述地址文本观察序列的前向概率及后向概率,并根据所述前向概率及后向概率计算每个时刻所述地址文本观察序列中存在隐藏状态的概率最大的词汇;根据每个时刻所述地址文本观察序列中存在隐藏状态的概率最大的词汇,对所述地址文本观察序列进行时间路径回溯,得到地址文本观察序列的隐藏状态序列:对所述隐藏状态序列进行解码,得到地址词语词性。5.如权利要求1所述的保单地址识别方法,其特征在于,所述对所述地址文本进行分词
处理,得到地址分词文本,...
【专利技术属性】
技术研发人员:黄学亮,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。