信息结构化处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:27141075 阅读:13 留言:0更新日期:2021-01-27 21:12
本发明专利技术公开了一种信息结构化处理方法。该信息结构化处理方法包括:获取待处理保险条款文档,将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果;根据所述位置标注结果对所述待处理保险条款文档进行截取,得到目标保险条款内容;利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果,所述标签标注结果包括目标标注标签及其对应的原始信息;对所述原始信息进行结构化处理,得到各目标标注标签对应的目标信息。本发明专利技术还公开了一种信息结构化处理装置及计算机可读存储介质。本发明专利技术能够实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入。保险条款的阅读和信息录入。保险条款的阅读和信息录入。

【技术实现步骤摘要】
信息结构化处理方法、装置及计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种信息结构化处理方法、装置及计算机可读存储介质。

技术介绍

[0002]保险条款是保险公司与投保人关于保险权利义务的约定,是保险合同的核心内容。保险合同是一种定式合同,一般而言,条款由保险公司单方面制订,具有内容复杂、专业性强和非结构化的特点。因此,保险购买者在阅读时,或保险经纪人在录入保险条款信息时,往往难以找寻到保险产品的关键信息,如保险责任给付的条件、结果、限制等。因此,如何实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入,是目前亟需解决的技术问题。

技术实现思路

[0003]本专利技术的主要目的在于提供一种信息结构化处理方法、装置及计算机可读存储介质,旨在实现保险条款信息的结构化处理、以便于保险条款的阅读和信息录入。
[0004]为实现上述目的,本专利技术提供一种信息结构化处理方法,所述信息结构化处理方法包括:
[0005]获取待处理保险条款文档,将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果;
[0006]根据所述位置标注结果对所述待处理保险条款文档进行截取,得到目标保险条款内容;
[0007]利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果,所述标签标注结果包括目标标注标签及其对应的原始信息;
[0008]对所述原始信息进行结构化处理,得到各目标标注标签对应的目标信息。
[0009]可选地,所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果的步骤之前,还包括:
[0010]获取第一训练样本集,所述第一训练样本集包括保险条款内容样本、真实标注标签及其真实信息,其中,所述真实标注标签及其真实信息是基于预设语料库标注得到的;
[0011]通过所述第一训练样本集对预设标签标注模型进行训练,得到训练好的标签标注模型。
[0012]可选地,所述预设标签标注模型包括信息抽取层和分类层;
[0013]所述通过所述第一训练样本集对预设标签标注模型进行训练,得到训练好的标签标注模型的步骤包括:
[0014]将所述保险条款内容样本输入至所述信息抽取层进行信息抽取,得到各保险条款内容样本对应的特征信息;
[0015]将所述特征信息转换为特征向量,将所述特征向量输入至所述分类层中,得到预
测标注标签,并根据所述预测标注标签和所述特征信息确定出对应的预测信息;
[0016]根据所述预测标注标签、所述预测信息、所述保险条款内容样本的真实标注标签及其真实信息,计算得到损失值;
[0017]根据所述损失值通过梯度下降算法对预设标签标注模型的参数进行更新,并基于所述第一训练样本集进行迭代训练,得到训练好的标签标注模型。
[0018]可选地,所述信息结构化处理方法还包括:
[0019]获取保险条款样本文档,按产品名称对所述保险条款样本文档进行分类;
[0020]对分类后的保险条款样本文档的各部分保险条款内容进行聚类分析,得到聚类结果;
[0021]根据所述聚类结果对各类保险条款内容进行标签标注,得到预设标签,并对各类保险条款内容中所述预设标签对应的值进行统计分析,得到值特征;
[0022]根据所述预设标签和所述值特征,构建得到所述预设语料库。
[0023]可选地,所述根据所述聚类结果对各类保险条款内容进行标签标注,得到预设标签的步骤包括:
[0024]根据所述聚类结果对各类保险条款内容进行标签标注,得到初始标签;
[0025]根据所述初始标签对应的产品类型对所述初始标签进行统计,根据统计结果对所述初始标签进行聚类和去重处理,以得到预设标签。
[0026]可选地,所述将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果的步骤之前,还包括:
[0027]获取第二训练样本集,所述第二训练样本集包括保险条款样本文档及各部分保险条款内容的标注框;
[0028]通过所述第二训练样本集对预设位置标注模型进行训练,得到训练好的位置标注模型。
[0029]可选地,所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果的步骤之前,还包括:
[0030]检测所述目标保险条款内容中是否存在表格;
[0031]若存在,则获取所述目标保险条款内容中表格的行列信息和维度;
[0032]若表格的维度为一维,则根据第一预设表达式对所述行列信息进行连接处理,得到处理后的目标保险条款内容;
[0033]若表格的维度为多维,则根据第二预设表达式对所述行列信息进行连接处理,得到处理后的目标保险条款内容;
[0034]所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果的步骤包括:
[0035]利用预先训练好的标签标注模型对所述处理后的目标保险条款内容进行标签标注,得到标签标注结果。
[0036]可选地,所述将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果的步骤之前,还包括:
[0037]检测所述待处理保险条款文档的格式是否为预设文档格式;
[0038]若不为预设文档格式,则对所述待处理保险条款文档进行格式转换,得到格式转
换后的待处理保险条款文档;
[0039]所述将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果的步骤包括:
[0040]将所述格式转换后的待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果;
[0041]所述根据所述位置标注结果对所述待处理保险条款文档进行截取,得到目标保险条款内容的步骤包括:
[0042]根据所述位置标注结果对所述格式转换后的待处理保险条款文档进行截取,得到目标保险条款内容。
[0043]此外,为实现上述目的,本专利技术还提供一种信息结构化处理装置,所述信息结构化处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息结构化处理程序,所述信息结构化处理程序被所述处理器执行时实现如上所述的信息结构化处理方法的步骤。
[0044]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息结构化处理程序,所述信息结构化处理程序被处理器执行时实现如上所述的信息结构化处理方法的步骤。
[0045]本专利技术提供一种信息结构化处理方法、装置及计算机可读存储介质,通过获取待处理保险条款文档,将待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果;然后,根据位置标注结果对待处理保险条款文档进行截取,得到目标保险条款内容;再利用预先训练好的标签标注模型对目标保险条款内容进行标签标注,得到标签标注结果,标签标注结果包括目标标注标签及其对应的原始信息;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息结构化处理方法,其特征在于,所述信息结构化处理方法包括以下步骤:获取待处理保险条款文档,将所述待处理保险条款文档输入至预先训练好的位置标注模型,得到位置标注结果;根据所述位置标注结果对所述待处理保险条款文档进行截取,得到目标保险条款内容;利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果,所述标签标注结果包括目标标注标签及其对应的原始信息;对所述原始信息进行结构化处理,得到各目标标注标签对应的目标信息。2.如权利要求1所述的信息结构化处理方法,其特征在于,所述利用预先训练好的标签标注模型对所述目标保险条款内容进行标签标注,得到标签标注结果的步骤之前,还包括:获取第一训练样本集,所述第一训练样本集包括保险条款内容样本、真实标注标签及其真实信息,其中,所述真实标注标签及其真实信息是基于预设语料库标注得到的;通过所述第一训练样本集对预设标签标注模型进行训练,得到训练好的标签标注模型。3.如权利要求2所述的信息结构化处理方法,其特征在于,所述预设标签标注模型包括信息抽取层和分类层;所述通过所述第一训练样本集对预设标签标注模型进行训练,得到训练好的标签标注模型的步骤包括:将所述保险条款内容样本输入至所述信息抽取层进行信息抽取,得到各保险条款内容样本对应的特征信息;将所述特征信息转换为特征向量,将所述特征向量输入至所述分类层中,得到预测标注标签,并根据所述预测标注标签和所述特征信息确定出对应的预测信息;根据所述预测标注标签、所述预测信息、所述保险条款内容样本的真实标注标签及其真实信息,计算得到损失值;根据所述损失值通过梯度下降算法对预设标签标注模型的参数进行更新,并基于所述第一训练样本集进行迭代训练,得到训练好的标签标注模型。4.如权利要求2所述的信息结构化处理方法,其特征在于,所述信息结构化处理方法还包括:获取保险条款样本文档,按产品名称对所述保险条款样本文档进行分类;对分类后的保险条款样本文档的各部分保险条款内容进行聚类分析,得到聚类结果;根据所述聚类结果对各类保险条款内容进行标签标注,得到预设标签,并对各类保险条款内容中所述预设标签对应的值进行统计分析,得到值特征;根据所述预设标签和所述值特征,构建得到所述预设语料库。5.如权利要求4所述的信息结构化处理方法,其特征在于,所述根据所述聚类结果对各类保险条款内容进行标签标注,得到预设标签的步骤包括:根据所述聚类结果对各类保险条款内容进行标签标注,得到初始标签;根据所述初始标签对应的产品类型对所述初始标签进行统计,根据统计...

【专利技术属性】
技术研发人员:吴凡
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1