文档质量确定方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:36708374 阅读:13 留言:0更新日期:2023-03-01 09:33
本公开提供了文档质量确定方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉、图像处理等技术领域。具体实现方案为:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据多个文本块各自的结构数据,得到文档结构特征;以及根据文档结构特征和文档的文本特征,确定文档的文档质量结果。确定文档的文档质量结果。确定文档的文档质量结果。

【技术实现步骤摘要】
文档质量确定方法、装置、电子设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习、计算机视觉、图像处理等
,可应用于OCR应用场景,具体涉及文档质量确定方法、装置、电子设备、存储介质以及程序产品。

技术介绍

[0002]随着信息技术和网络技术的迅猛发展,信息膨胀与冗余给人们的社会活动和娱乐活动带来了信息选择的困惑。从浩瀚的资源中寻找需要的信息具有极大的挑战。

技术实现思路

[0003]本公开提供了一种文档质量确定方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种文档质量确定方法,包括:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据上述多个文本块各自的结构数据,得到文档结构特征;以及根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果。
[0005]根据本公开的另一方面,提供了一种文档质量确定装置,包括:拆分模块,用于根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;第一提取模块,用于根据上述多个文本块各自的结构数据,得到文档结构特征;以及结果确定模块,用于根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示意性示出了根据本公开实施例的可以应用文档质量确定方法及装置的示例性系统架构;
[0012]图2示意性示出了根据本公开实施例的文档质量确定方法的流程图;
[0013]图3示意性示出了根据本公开实施例的文档质量识别模型的网络结构图;
[0014]图4A示意性示出了根据本公开实施例的预定格式的文档示意图;
[0015]图4B示意性示出了根据本公开实施例的非预定格式的文档示意图;
[0016]图5示意性示出了根据本公开实施例的文档质量确定装置的框图;以及
[0017]图6示意性示出了根据本公开实施例的适于实现文档质量确定方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]本公开提供了一种文档质量确定方法、装置、电子设备、存储介质以及程序产品。
[0020]根据本公开的实施例,提供了一种文档质量确定方法,包括:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据多个文本块各自的结构数据,得到文档结构特征;以及根据文档结构特征和文档的文本特征,确定文档的文档质量结果。
[0021]在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0022]在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0023]图1示意性示出了根据本公开实施例的可以应用文档质量确定方法及装置的示例性系统架构。
[0024]需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文档质量确定方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的文档质量确定方法及装置。
[0025]如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0026]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
[0027]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0028]服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信
息、或数据等)反馈给终端设备。
[0029]需要说明的是,本公开实施例所提供的文档质量确定方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的文档质量确定装置也可以设置于终端设备101、102、或103中。
[0030]或者,本公开实施例所提供的文档质量确定方法一般也可以由服务器105执行。相应地,本公开实施例所提供的文档质量确定装置一般可以设置于服务器105中。本公开实施例所提供的文档质量确定方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文档质量确定装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
[0031]例如,用户通过终端设备101、102、103将文档发送给服务器105,由服务器105根据文档结构布局,对文档中的文本进行拆分,得到多个文本块。根据多个文本块各自的结构数据,得到文档结构特征。根据文档结构特征和文档的文本特征,确定文档的文档质量结果。或者由能够与终端设备101、102、103本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档质量确定方法,包括:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据所述多个文本块各自的结构数据,得到文档结构特征;以及根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果。2.根据权利要求1所述的方法,其中,所述根据所述多个文本块各自的结构数据,得到文档结构特征,包括:根据所述多个文本块各自的结构数据,得到结构数据序列,其中,所述结构数据序列包括与所述多个文本块一一对应的多个结构数据,所述多个结构数据是按照所述多个文本块彼此之间的结构布局关联关系排序的;根据所述结构数据序列,得到区块结构特征;对所述多个文本块进行全局布局分析,得到所述全局结构特征;以及根据所述区块结构特征和所述全局结构特征,得到所述文档结构特征。3.根据权利要求1所述的方法,还包括:对所述文档的文本进行全文特征提取,得到第一文本特征;从所述文档的文本中确定布局文本,得到布局文本序列,其中,所述布局文本序列包括多个布局文本,所述布局文本为用于体现文档的结构布局的文本,所述布局文本序列中的所述多个布局文本是按照所述多个布局文本彼此之间的结构布局关联关系排序的;根据所述布局文本序列,得到第二文本特征;以及拼接所述第一文本特征和所述第二文本特征,得到所述文本特征。4.根据权利要求1所述的方法,还包括:确定所述文档的文档类型;确定与所述文档类型相匹配的目标处理模式;以及根据所述目标处理模式确定所述文档的所述文档结构布局。5.根据权利要求4所述的方法,其中,所述文档的文档类型为网页版文档类型;所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:根据所述文档的渲染结果,确定所述文档结构布局。6.根据权利要求4所述的方法,其中,所述文档的文档类型为非网页版文档类型;所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:根据多个预定字段信息,确定所述文档是否为预定格式的文档;在确定所述文档为预定格式的文档的情况下,将所述预定格式的文档的预定文档结构布局作为所述文档的所述文档结构布局;以及在确定所述文档为非预定格式的文档的情况下,将所述文档的段落结构布局作为所述文档的所述文档结构布局。7.根据权利要求3所述的方法,其中,所述从所述文档的文本中确定布局文本,得到布局文本序列,包括:针对所述多个文本块中的每个文本块,提取所述文本块的布局文本,得到所述布局文本序列。8.根据权利要求1所述的方法,其中,所述根据所述文档结构特征和所述文本特征,确定所述文档的文档质量结果,包括:
在确定所述文档包括图像的情况下,对所述图像进行特征提取,得到图像特征;以及根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果。9.根据权利要求8所述的方法,其中,所述根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果,包括:拼接所述文档结构特征、所述文本特征和所述图像特征,得到文档特征;以及根据所述文档特征,确定所述文档的所述文档质量结果。10.根据权利要求2所述的方法,其中,所述根据所述结构数据序列,得到区块结构特征,包括:在确定所述文档包括图像的情况下,确定与所述图像相关的结构数据;以及根据与所述图像相关的结构数据和所述结构数据序列,得到所述区块结构特征。11.根据权利要求3所述的方法,其中,所述根据所述布局文本序列,得到第二文本特征,包括:在确定所述文档包括图像的情况下,对所述图像进行文本识别,得到文本识别结果;以及在确定所述文本识别结果用于表征所述图像中包括文本的情况下,根据所述文本识别结果和所述布局文本序列,得到所述第二文本特征。12.一种文档质量确定装置,包括:拆分模块,用于根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;第一提取模块,用于根据所述多个文本块各自的结构数据,得到文档结构特征;以及结果确定模块,用于根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果。13.根据权利要求12所述的装置,其中,所述第一提取模块包括:结构获取子模块,用于根据所述多个文本块各自的结构数据...

【专利技术属性】
技术研发人员:李薿骆金昌陈坤斌何伯磊
申请(专利权)人:百度国际科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1