【技术实现步骤摘要】
文档质量确定方法、装置、电子设备以及存储介质
[0001]本公开涉及人工智能
,尤其涉及深度学习、计算机视觉、图像处理等
,可应用于OCR应用场景,具体涉及文档质量确定方法、装置、电子设备、存储介质以及程序产品。
技术介绍
[0002]随着信息技术和网络技术的迅猛发展,信息膨胀与冗余给人们的社会活动和娱乐活动带来了信息选择的困惑。从浩瀚的资源中寻找需要的信息具有极大的挑战。
技术实现思路
[0003]本公开提供了一种文档质量确定方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种文档质量确定方法,包括:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据上述多个文本块各自的结构数据,得到文档结构特征;以及根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果。
[0005]根据本公开的另一方面,提供了一种文档质量确定装置,包括:拆分模块,用于根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;第一提取模块,用于根据上述多个文本块各自的结构数据,得到文档结构特征;以及结果确定模块,用于根据上述文档结构特征和上述文档的文本特征,确定上述文档的文档质量结果。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法 ...
【技术保护点】
【技术特征摘要】
1.一种文档质量确定方法,包括:根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;根据所述多个文本块各自的结构数据,得到文档结构特征;以及根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果。2.根据权利要求1所述的方法,其中,所述根据所述多个文本块各自的结构数据,得到文档结构特征,包括:根据所述多个文本块各自的结构数据,得到结构数据序列,其中,所述结构数据序列包括与所述多个文本块一一对应的多个结构数据,所述多个结构数据是按照所述多个文本块彼此之间的结构布局关联关系排序的;根据所述结构数据序列,得到区块结构特征;对所述多个文本块进行全局布局分析,得到所述全局结构特征;以及根据所述区块结构特征和所述全局结构特征,得到所述文档结构特征。3.根据权利要求1所述的方法,还包括:对所述文档的文本进行全文特征提取,得到第一文本特征;从所述文档的文本中确定布局文本,得到布局文本序列,其中,所述布局文本序列包括多个布局文本,所述布局文本为用于体现文档的结构布局的文本,所述布局文本序列中的所述多个布局文本是按照所述多个布局文本彼此之间的结构布局关联关系排序的;根据所述布局文本序列,得到第二文本特征;以及拼接所述第一文本特征和所述第二文本特征,得到所述文本特征。4.根据权利要求1所述的方法,还包括:确定所述文档的文档类型;确定与所述文档类型相匹配的目标处理模式;以及根据所述目标处理模式确定所述文档的所述文档结构布局。5.根据权利要求4所述的方法,其中,所述文档的文档类型为网页版文档类型;所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:根据所述文档的渲染结果,确定所述文档结构布局。6.根据权利要求4所述的方法,其中,所述文档的文档类型为非网页版文档类型;所述根据所述目标处理模式确定所述文档的所述文档结构布局,包括:根据多个预定字段信息,确定所述文档是否为预定格式的文档;在确定所述文档为预定格式的文档的情况下,将所述预定格式的文档的预定文档结构布局作为所述文档的所述文档结构布局;以及在确定所述文档为非预定格式的文档的情况下,将所述文档的段落结构布局作为所述文档的所述文档结构布局。7.根据权利要求3所述的方法,其中,所述从所述文档的文本中确定布局文本,得到布局文本序列,包括:针对所述多个文本块中的每个文本块,提取所述文本块的布局文本,得到所述布局文本序列。8.根据权利要求1所述的方法,其中,所述根据所述文档结构特征和所述文本特征,确定所述文档的文档质量结果,包括:
在确定所述文档包括图像的情况下,对所述图像进行特征提取,得到图像特征;以及根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果。9.根据权利要求8所述的方法,其中,所述根据所述文档结构特征、所述文本特征和所述图像特征,确定所述文档的文档质量结果,包括:拼接所述文档结构特征、所述文本特征和所述图像特征,得到文档特征;以及根据所述文档特征,确定所述文档的所述文档质量结果。10.根据权利要求2所述的方法,其中,所述根据所述结构数据序列,得到区块结构特征,包括:在确定所述文档包括图像的情况下,确定与所述图像相关的结构数据;以及根据与所述图像相关的结构数据和所述结构数据序列,得到所述区块结构特征。11.根据权利要求3所述的方法,其中,所述根据所述布局文本序列,得到第二文本特征,包括:在确定所述文档包括图像的情况下,对所述图像进行文本识别,得到文本识别结果;以及在确定所述文本识别结果用于表征所述图像中包括文本的情况下,根据所述文本识别结果和所述布局文本序列,得到所述第二文本特征。12.一种文档质量确定装置,包括:拆分模块,用于根据文档结构布局,对文档中的文本进行拆分,得到多个文本块;第一提取模块,用于根据所述多个文本块各自的结构数据,得到文档结构特征;以及结果确定模块,用于根据所述文档结构特征和所述文档的文本特征,确定所述文档的文档质量结果。13.根据权利要求12所述的装置,其中,所述第一提取模块包括:结构获取子模块,用于根据所述多个文本块各自的结构数据...
【专利技术属性】
技术研发人员:李薿,骆金昌,陈坤斌,何伯磊,
申请(专利权)人:百度国际科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。