System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种双栏保险条款的解析方法及相关产品。
技术介绍
1、为了以一种更方便浏览的方式将双栏保险条款文件呈现给用户,需要对双栏保险条款进行结构化处理,即将双栏保险条款文件中的文本转换为三级标题与正文相对应的结构化结果。
2、对于双栏保险条款的结构化,现有技术一般依赖视觉模型进行标题与正文的提取,所用到的视觉模型又需要大量的数据进行训练,且模型本身的运行速度也很慢,因此存在双栏保险条款解析效率很低的问题。
3、因此,如何提高双栏保险条款的解析效率,是本领域技术人员急需解决的问题。
技术实现思路
1、基于上述问题,本申请提供了一种双栏保险条款的解析方法及相关产品,以不依赖需要大量数据训练的视觉模型进行标题和正文的提取,解决了现有技术对双栏保险条款解析的效率很低的问题。
2、第一方面,本申请提供了一种双栏保险条款的解析方法,包括:
3、获取预定格式的待解析双栏保险条款文件;
4、对所述双栏保险条款文件进行扫描处理,得到与所述双栏保险条款文件对应的保险产品信息;
5、基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息;
6、基于所述双栏保险条款文件对应的基础文本信息,结合特定符号,定位并提取所述有效文本信息中的标题以及所述标题对应的正文内容;
7、将所述保险产品信息、所述标题以及所述标题对应的
8、可选的,所述对所述双栏保险条款文件进行扫描处理,得到与所述双栏保险条款文件对应的保险产品信息,包括:
9、对所述双栏保险条款文件进行由所述预定格式到图片格式的转换,得到至少两张图像数据;所述预定格式为便携式文件pdf格式;
10、对所述图像数据中的二维码进行扫描,得到网址信息;
11、对所述网址信息进行查询,得到与所述双栏保险条款文件对应的保险产品信息。
12、可选的,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息之前,还包括:
13、对所述双栏保险条款文件进行由预定格式到文本格式的转换,得到所述双栏保险条款文件对应的基础文本信息;
14、所述预定格式为便携式文件pdf格式;
15、所述基础文本信息包括:文本内容、文本坐标以及文本大小。
16、可选的,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息,包括:
17、基于所述双栏保险条款文件对应的基础文本信息对所述双栏保险条款文件进行文本行合并,得到合并后的文本行;
18、基于所述合并后的文本行,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行定位;
19、去除所述页眉和所述页脚处的所述无效信息,得到有效文本信息。
20、可选的,所述基于所述双栏保险条款文件对应的基础文本信息对所述双栏保险条款文件进行文本行合并,得到合并后的文本行,包括:
21、基于所述文本内容和所述文本坐标,获取任意相邻的第一文本信息和第二文本信息;
22、若所述第一文本信息和所述第二文本信息在页面的上边界或下边界对应的预设边界范围内,且所述第一文本信息对应的第一文本坐标和所述第二文本信息对应的第二文本坐标的左右距离小于第一预设阈值,则以第一设定距离值对所述第一文本信息和所述第二文本信息进行合并,得到第一文本行;
23、若所述第一文本信息和所述第二文本信息不在页面的所述上边界或所述下边界对应的预设边界范围内,当所述第一文本坐标和所述第二文本坐标的左右距离小于所述第一预设阈值,且上下距离小于第二预设阈值时,若所述第一文本信息对应的第一文本内容和所述第二文本信息对应的第二文本内容中存在特别符号,则以第二设定距离值对所述第一文本信息和所述第二文本信息进行合并,得到第二文本行;
24、若所述第一文本内容和所述第二文本内容中不存在所述特别符号,则以第三设定距离值对所述第一文本信息和所述第二文本信息进行合并,得到第三文本行;
25、所述特别符号包括:数字、字母以及标点符号。
26、可选的,所述基于所述合并后的文本行,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行定位,包括:
27、基于所述合并后的文本行,在每个页面的上边界和下边界分别对应的预设边界范围内进行文本的提取;
28、当所述文本的中心点与所述上边界或所述下边界的距离小于第三设定阈值,且所述文本的重复次数超过第四设定阈值时,将所述文本定位为页眉或页脚处的无效信息。
29、可选的,所述基于所述双栏保险条款文件对应的基础文本信息,结合特定符号,定位并提取所述有效文本信息中的标题以及所述标题对应的正文内容,包括:
30、基于所述文本内容以及所述文本坐标,将所述有效文本信息中包含文本终止符的文本行以及不位于页面左边界与双栏分界线之间的文本行设置为正文;
31、基于所述文本内容、所述文本坐标以及所述文本大小,将与上下临近文本行的距离大于第五预设阈值的文本行,或所述文本大小大于第六预设阈值的文本行设置为一级标题;
32、基于所述文本内容,将包含二级标题特定字符的文本行设置为二级标题;
33、基于所述文本内容,将包含三级标题特定字符的文本行设置为三级标题。
34、第二方面,本申请提供了一种双栏保险条款的解析装置,包括:
35、获取模块,用于获取预定格式的待解析双栏保险条款文件;
36、扫描模块,用于对所述双栏保险条款文件进行扫描处理,得到与所述双栏保险条款文件对应的保险产品信息;
37、去除模块,用于基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息;
38、提取模块,用于基于所述双栏保险条款文件对应的基础文本信息,结合特定符号,定位并提取所述有效文本信息中的标题以及所述标题对应的正文内容;
39、输出模块,用于将所述保险产品信息、所述标题以及所述标题对应的正文内容进行结构化输出,实现对所述双栏保险条款文件的解析。
40、第三方面,本申请提供了一种双栏保险条款的解析设备,包括:
41、存储器,用于存储计算机程序;
42、处理器,用于执行所述计算机程序时实现如上述任一项所述双栏保险条款的解析方法的步骤。
43、第四方面,本申请提供了一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器本文档来自技高网...
【技术保护点】
1.一种双栏保险条款的解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述双栏保险条款文件进行扫描处理,得到与所述双栏保险条款文件对应的保险产品信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息对所述双栏保险条款文件进行文本行合并,得到合并后的文本行,包括:
6.根据权利要求4所述的方法,其特征在于,所述基于所述合并后的文本行,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行定位,包括:
7.根据权利要求4所述的方法,其特征在于,所述
8.一种双栏保险条款的解析装置,其特征在于,包括:
9.一种双栏保险条款的解析设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述双栏保险条款的解析方法的步骤。
...【技术特征摘要】
1.一种双栏保险条款的解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述双栏保险条款文件进行扫描处理,得到与所述双栏保险条款文件对应的保险产品信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息,结合预设边界范围对所述双栏保险条款文件页眉和页脚处的无效信息进行去除,得到有效文本信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述双栏保险条款文件对应的基础文本信息对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。