表格信息提取方法、装置和存储介质制造方法及图纸

技术编号:21034467 阅读:22 留言:0更新日期:2019-05-04 05:29
本发明专利技术提供一种表格信息提取方法、装置和存储介质。该方法包括:确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。本实施例提供的表格信息提取方法、装置和存储介质,首先识别待提取信息的表格的类型,然后根据表格类型在表格中提取信息,可准确提取网页表格中的内容,避免了需为不同结构的网页配置不同提取模板,降低了网页表格信息提取的成本,提高了表格信息提取效率,具有广泛的适用范围。

【技术实现步骤摘要】
表格信息提取方法、装置和存储介质
本专利技术涉及网络信息处理
,尤其涉及一种表格信息提取方法、装置和存储介质。
技术介绍
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是SPO(主体-关联关系-客体)三元组,构成网状的知识结构。SPO三元组中,S指示Subject(主体)、O指示Object(客体)、P指示Predicate(S与O之间的关联关系)。例如,“张三身高为226cm”中,张三为S,226cm为O,身高为P。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,提升搜索质量。随着信息技术的发展,互联网上的资源越来越丰富。除了非结构化数据外,还有大量的网络表格存在,这些网络表格较文本而言,具有更好的结构化特性和更多的内容信息。在知识图谱构建中,从网页的表格中进行表格信息提取,是一种不可或缺的信息提取手段。如何让机器更好地理解网络表格的语义成为提高表格搜索覆盖率和准确率的重大挑战。目前的网页表格信息提取通常依靠人工基于网页内容配置特定的提取模板,来进行表格信息提取,因此存在信息提取成本高、效率低的问题,而且需为不同结构的网页配置不同提取模板,也存在适用范围较小的问题。
技术实现思路
本专利技术提供一种表格信息提取方法、装置和存储介质,可解决现有的表格信息提取方法存在信息提取成本高、效率低、适用范围较小的问题。本专利技术的第一方面提供一种表格信息提取方法,包括:确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。可选的,当所述待提取表格的表格类型为单实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:在所述待提取表格的表格简介区域、所述待提取表格所在网页的文字描述区域或者所述待提取表格所在网页的文档标题中确定所述待提取表格中的主体信息,所述表格简介区域包含所述待提取表格的主体信息;在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息以及所述关联信息对应的客体信息。可选的,当所述待提取表格的表格类型为多实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息;在所述待提取表格中确定主体信息所在的行/列,在所述主体信息所在的行/列中,确定所述待提取表格的至少一个主体信息;在所述待提取表格中确定每一对关联信息和主体信息对应的客体信息。可选的,所述确定待提取表格的表格类型之前,所述表格信息提取方法还包括:确定所述待提取表格中的表格简介区域,所述表格简介区域包含所述待提取表格的主体信息;确定所述待提取表格中的表头区域,所述表头区域为所述待提取表格中的主体信息/客体信息所在的行/列;所述确定待提取表格的表格类型,包括:根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型。可选的,所述确定所述待提取表格中的表格简介区域,确定所述待提取表格中的表格简介区域包括:当所述待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定所述行/列为所述待提取表格的表格简介区域。可选的,所述确定所述待提取表格中的表头区域,包括:对于所述待提取表格中的一行/一列中的所有单元格,当所述一行/一列中的所有单元格符合以下中至少一项预设条件时,确定所述行/列为所述待提取表格的表头区域;所述预设条件包括:一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,一行/一列中在表头类超文本标记语言(HyperTextMarkupLanguage,HTML)标签下的单元格比例大于第二预设比例;或者,一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。可选的,所述根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型,包括:在所述待提取表格的行和列中均存在表头区域时,确定所述待提取表格的表格类型为多实体类型。可选的,所述确定待提取表格的表格类型之前,所述方表格信息提取方法还包括:确定所述待提取表格的行数目和列数目均大于2。可选的,所述表格信息提取方法还包括:若所述待提取表格的行数目或列数目为2,则确定所述待提取表格的表格类型为单实体类型。可选的,所述确定待提取表格的表格类型之前,所述表格信息提取方法还包括:在所述待提取表格中存在合并单元格时,拆分所述合并单元格。本专利技术的第二方面提供一种表格信息提取装置,用于执行上述第一方面中的表格信息提取方法,具有相同或相似的技术特征和技术效果。本专利技术提供的表格信息提取装置,包括:表格类型获取模块,用于确定待提取表格的表格类型,表格类型包括单实体类型和/或多实体类型;表格信息提取模块,用于根据待提取表格的表格类型,提取待提取表格中的主体信息、客体信息以及主体和客体之间的关联信息。可选的,当待提取表格的表格类型为单实体类型,表格信息提取模块具体用于,在待提取表格的表格简介区域、待提取表格所在网页的文字描述区域或者待提取表格所在网页的文档标题中确定待提取表格中的主体信息,表格简介区域包含待提取表格的主体信息;在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息以及关联信息对应的客体信息。可选的,当待提取表格的表格类型为多实体类型,表格信息提取模块具体用于,在待提取表格中确定关联信息所在的列/行,在关联信息所在的列/行中,确定待提取表格的至少一个关联信息;在待提取表格中确定主体信息所在的行/列,在主体信息所在的行/列中,确定待提取表格的至少一个主体信息;在待提取表格中确定每一对关联信息和主体信息对应的客体信息。可选的,表格信息提取装置还包括:表格简介区域获取模块,用于确定待提取表格中的表格简介区域,表格简介区域包含待提取表格的主体信息;表头区域获取模块,用于确定待提取表格中的表头区域,表头区域为待提取表格中的主体信息/客体信息所在的行/列;对应的,表格类型获取模块具体用于,根据待提取表格中的表头区域,确定待提取表格的表格类型。可选的,表格简介区域获取模块具体用于,当待提取表格中的一行/一列中的所有单元格属于同一个合并单元格,则确定行/列为待提取表格的表格简介区域。可选的,表头区域获取模块具体用于,对于待提取表格中的一行/一列中的所有单元格,当一行/一列中的所有单元格符合以下中至少一项预设条件时,确定行/列为待提取表格的表头区域;预设条件包括:一行/一列中单元格格式为预设表头格式的单元格比例大于第一预设比例;或者,一行/一列中在表头类HTML标签下的单元格比例大于第二预设比例;或者,一行/一列中单元格内容属于预定义关联关系的单元格比例大于第三预设比例。可选的,表格类型获取模块具体用于,在待提取表格的行和列中均存在表头区域时,确定待提取表格的表格类型为多实体类型。可选的,表格信息提取装置还包括:行列数目获取模块,用于确定待提取表格的行数目和列数目均大于2。可选的,表格类型获取模块还用于,本文档来自技高网...

【技术保护点】
1.一种表格信息提取方法,其特征在于,包括:确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。

【技术特征摘要】
1.一种表格信息提取方法,其特征在于,包括:确定待提取表格的表格类型,所述表格类型包括单实体类型和/或多实体类型;根据所述待提取表格的表格类型,提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息。2.根据权利要求1所述的方法,其特征在于,当所述待提取表格的表格类型为单实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:在所述待提取表格的表格简介区域、所述待提取表格所在网页的文字描述区域或者所述待提取表格所在网页的文档标题中确定所述待提取表格中的主体信息,所述表格简介区域包含所述待提取表格的主体信息;在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息以及所述关联信息对应的客体信息。3.根据权利要求1所述的方法,其特征在于,当所述待提取表格的表格类型为多实体类型,所述提取所述待提取表格中的主体信息、客体信息以及所述主体和所述客体之间的关联信息,包括:在所述待提取表格中确定关联信息所在的列/行,在所述关联信息所在的列/行中,确定所述待提取表格的至少一个关联信息;在所述待提取表格中确定主体信息所在的行/列,在所述主体信息所在的行/列中,确定所述待提取表格的至少一个主体信息;在所述待提取表格中确定每一对关联信息和主体信息对应的客体信息。4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定待提取表格的表格类型之前,所述方法还包括:确定所述待提取表格中的表格简介区域,所述表格简介区域包含所述待提取表格的主体信息;确定所述待提取表格中的表头区域,所述表头区域为所述待提取表格中的主体信息/客体信息所在的行/列;所述确定待提取表格的表格类型,包括:根据所述待提取表格中的表头区域,确定所述待提取表格的表格类型。5.根...

【专利技术属性】
技术研发人员:李双婕黄昉梁海金张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1