System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种文件中表格检索的方法、装置、设备、介质以及产品。
技术介绍
1、表格结构简单,分隔归纳明确,适合展示大量的信息内容和关键数据,是一种简单有效且直观的数据表现形式,用户可以通过浏览表格迅速获取所需信息,故若想从大量文件中获取所需信息,检索表格是一种十分快捷的方式。
2、目前检索表格的方式大多是先将文件中的表格提取出来,然后将检索关键词与提取到的表格的行列名进行重复率计算,将与检索关键词重复率最高的行列名对应的表格作为结果输出。
3、然而,文件中表格的行列名可能会出现相同或相似的情况,单靠比较检索关键词与行列名的重复率,检索到的表格准确性较低;且现有技术中对于框线不完整的表格识别效果有限,提取到的表格不是文件中的全部表格,导致最后得到的结果不具备全面性,间接降低了检索结果的准确率。
技术实现思路
1、本申请提供一种文件中表格检索的方法、装置、设备、介质以及产品,用以解决文件中表格检索的准确性和全面性差的技术问题。
2、第一方面,本申请提供一种文件中表格检索的方法,所述方法包括:
3、接收目标文件中表格的检索请求,所述检索请求包括目标文件和检索关键词;
4、根据所述检索请求获取所述目标文件中多个文本位置信息并提取第一类型表格,所述第一类型表格为框线完整的表格;
5、根据所述文本位置信息提取第二类型表格,所述第二类型表格为框线不完整的表格;
6、若所述第一类型表格和所述第
7、确定各表格对应的主题词,所述各表格包括合并后的表格及未合并的第一类型表格和第二类型表格;
8、根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格。
9、在一种可能的设计中,所述获取所述目标文件中多个文本位置信息,包括:
10、获取所述目标文件中的文本内容;
11、根据每一行所述文本内容生成多个文本框,并确定多个所述文本框的四个顶点坐标;
12、将各所述文本框的四个顶点坐标确定为对应的文本位置信息。
13、在一种可能的设计中,所述获取所述目标文件中的文本内容,包括:
14、提取所述目标文件中每一页的字符特征;
15、将所述字符特征与预设字符模板进行匹配,以识别出字符;
16、将所述字符转换为对应的文本内容,以获得所述目标文件中的文本内容。
17、在一种可能的设计中,所述提取第一类型表格,包括:
18、确定所述目标文件中表格框线的位置和长度;
19、根据所述表格框线的位置和长度,确定表格中的单元格位置信息;
20、根据所述文本位置信息和所述单元格位置信息,确定各单元格中对应的文本内容;
21、将所述各单元格中对应的文本内容填入对应的单元格中,以提取到第一类型表格。
22、在一种可能的设计中,所述根据所述文本位置信息提取第二类型表格,包括:
23、确定行文本内容中的空格数量,所述行文本内容中不包括所述第一类型表格中包含的文本内容,所述行文本内容位于所述目标文件中;
24、计算所述空格之间文本横坐标的均值;
25、根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容;
26、根据所述文本位置信息将所述对应的文本内容填入对应的表格中,以提取到第二类型表格。
27、在一种可能的设计中,所述根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容,包括:
28、若存在两行及以上的所述行文本内容满足预设条件,则将满足所述预设条件的文本内容确定为所述第二类型表格对应的文本内容,所述预设条件为:所述行文本内容都包含两个及以上的空格,且所述空格之间的文本横坐标的均值都相等。
29、在一种可能的设计中,识别第一类型表格和所述第二类型表格中的至少一种存在跨页情况,包括:
30、针对所述目标文件中的每一页依次进行如下操作:
31、确定当前页包含的表格是否为当前页开头;所述当前页包含的表格为第一类型表格或第二类型表格;
32、若是,则判断上一页包含的表格是否为上一页的结尾;
33、若是,则判断所述当前页包含的表格和所述上一页包含的表格的框架是否相同;
34、若是,则确定当前页表格存在跨页情况。
35、在一种可能的设计中,所述确定当前页包含的表格是否为当前页开头,包括:
36、确定所述当前页包含的表格中的第一行文本内容与当前页第一行文本内容是否相同;
37、若不同,则确定所述当前页包含的表格中的第一行文本内容与当前页第二行文本内容是否相同;
38、若相同,则确定当前页包含的表格为当前页开头。
39、在一种可能的设计中,所述确定各表格对应的主题词之前,还包括:
40、提取所述各表格对应的目标文本内容,所述目标文本内容包括所述各表格之前的三行文本内容和所述各表格的行列名。
41、在一种可能的设计中,所述确定各表格对应的主题词,包括:
42、利用主题抽取模型对所述各表格对应的目标文本内容进行主题词抽取。
43、在一种可能的设计中,所述根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格,包括:
44、创建所述各表格对应的主题词列表,所述各表格对应的主题词列表用于存储所述各表格对应的主题词和检索关键词;
45、计算所述各表格对应的主题词列表中所述各表格对应的主题词和检索关键词的标准化点互信息(normalized pointwise mutual information,npmi)值,以获得多个npmi值;
46、将所述多个npmi值由大到小排序并将排在第一位的npmi值对应的表格输出,以获得目标表格。
47、第二方面,本申请提供一种文件中表格检索装置,所述装置包括:
48、获取模块,用于根据所述检索请求获取所述目标文件中多个文本位置信息;
49、提取模块,用于提取第一类型表格,所述第一类型表格为框线完整的表格;
50、所述提取模块,还用于根据所述文本位置信息提取第二类型表格,所述第二类型表格为框线不完整的表格;
51、合并模块,用于若所述第一类型表格和所述第二类型表格中的至少一种存在跨页情况,则对所述存在跨页情况的表格进行合并,以获得合并后的表格;
52、确定模块,用于确定各表格对应的主题词,所述各表格包括合并后及未合并的第一类型表格和第二类型表格;
53、检索模块,用于根据所述主题词及所述检索关键词对所述各表格进行检索,以获得目标表格。
54、第三方面,本申请提本文档来自技高网...
【技术保护点】
1.一种文件中表格检索的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文件中多个文本位置信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标文件中的文本内容,包括:
4.根据权利要求1所述的方法,其特征在于,所述提取第一类型表格,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本位置信息提取第二类型表格,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容,包括:
7.根据权利要求1所述的方法,其特征在于,识别第一类型表格和所述第二类型表格中的至少一种存在跨页情况,包括:
8.根据权利要求7所述的方法,其特征在于,所述确定当前页包含的表格是否为当前页开头,包括:
9.根据权利要求1所述的方法,其特征在于,所述确定各表格对应的主题词之前,还包括:
10.根据权利要求1所述的方法,其特征在于,所述确定各表格对应的主题词,包括:
...【技术特征摘要】
1.一种文件中表格检索的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文件中多个文本位置信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标文件中的文本内容,包括:
4.根据权利要求1所述的方法,其特征在于,所述提取第一类型表格,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本位置信息提取第二类型表格,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述空格数量和所述均值,确定所述第二类型表格对应的文本内容,包括:
7.根据权利要求1所述的方法,其特征在于,识别第一类型表格和所述第二类型表格中的至少一种存在跨页情况,包括:
8.根据权利要求7所述的方法,其特征在于,所述确定当前页包含的表格是否为当前页开头,包括:
【专利技术属性】
技术研发人员:陈娟,刘梅琛,袁鹏宇,徐莹,
申请(专利权)人:人保信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。