文档检测方法、装置、设备和存储介质制造方法及图纸

技术编号:30781246 阅读:25 留言:0更新日期:2021-11-16 07:41
本公开提供了一种文档检测方法、装置、设备和存储介质,涉及数据处理技术领域,具体涉及大数据、大搜索等技术领域。文档检测方法包括:获取待检测文档;对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息;基于所述属性信息,确定所述视觉效果检测处理的检测结果。本公开可以提高文档检测的精准度。以提高文档检测的精准度。以提高文档检测的精准度。

【技术实现步骤摘要】
文档检测方法、装置、设备和存储介质


[0001]本公开涉及数据处理
,具体涉及大数据、云计算、大搜索等
,尤其涉及一种文档检测方法、装置、设备和存储介质。

技术介绍

[0002]随着技术的发展,上传到网络上的文档越来越多,为了保证发表的文档的质量,文档平台一般会对上传到平台上的文档进行文档审核,将通过文档审核的文档进行发表,对未通过文档审核的文档进行下线处理。
[0003]相关技术中,一般是针对文档中的文档内容进行文档审核。

技术实现思路

[0004]本公开提供了一种文档检测方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种文档检测方法,包括:获取待检测文档;对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息;基于所述属性信息,确定所述视觉效果检测处理的检测结果。
[0006]根据本公开的另一方面,提供了一种文档检测装置,包括:获取模块,用于获取待检测文档;解析模块,用于对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息;检测模块,用于基于所述属性信息,确定所述视觉效果检测处理的检测结果。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0010]根据本公开的技术方案,可以提高文档检测的精准度。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开第一实施例的示意图;
[0014]图2是根据本公开第二实施例的示意图;
[0015]图3是根据本公开第三实施例的示意图;
[0016]图4是根据本公开第四实施例的示意图;
[0017]图5是用来实现本公开实施例的表格图像的识别方法中任一方法的电子设备的示意图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]相关技术中,一般是针对文档中的文档内容进行文档审核。文档审核可以包括敏感词检测、文档查重等处理。敏感词检测时,比如检测文档内容中是否包括预设的敏感词,若包括预设的敏感词,则对包括预设的敏感词的文档进行下线处理。文档查重比如计算两篇文档的相似度,若相似度大于预设值,则认为这两篇文档为相似文档,将其中一篇作为抄袭文档进行下线处理。相关技术中,文档查重时也是基于文档内容进行的。
[0020]对于一些恶意上传者,为了规避文档审核,可以对文档内容进行一定的处理,比如,将其中一些字更改为极小字或者更改为白色字。一般来讲,采用相关技术中对文档内容进行检测的方式,无法识别出这些极小字或者白色字,就会使得这些被恶意上传的文档通过文档审核,造成漏检。
[0021]为了提高文档检测的精准度,本公开提供如下实施例。
[0022]图1是根据本公开第一实施例的示意图。该实施例提供一种文档检测方法,包括:
[0023]101、获取待检测文档。
[0024]102、对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息。
[0025]103、基于所述属性信息,获取所述视觉效果检测处理的检测结果。
[0026]本实施例的执行主体可以为文档检测装置,文档检测装置可以位于终端或者服务器中。
[0027]待检测文档可以具有多种文档格式,文档格式比如为word或者pdf等。
[0028]待检测文档可以是由用户上传到文档平台上的,之后,文档平台可以对待检测文档进行文档检测处理。
[0029]相关技术中,对待检测文档进行检测时,一般是基于待检测文档中的文档内容执行的,比如,文档内容可以包括多个字符,文档检测时检测这些字符中是否包括敏感词,或者,计算待检测文档中的字符与已通过审核的文档中的字符的文本相似度等。
[0030]本实施例中,基于文档内容属性信息进行文档检测。属性信息不同于文档内容本身,可以是文档内容的视觉相关信息,视觉相关信息比如为样式信息、布局信息等。比如,文档内容中包括一个字符“文”,该字符的属性信息可以包括:该字符的字符大小,和/或,该字符的字符颜色。具体地,字符大小也可以称为字号,可以以像素(px)为单位,比如,一个字符为12px;一般的字符颜色为黑色。
[0031]为了与通常的文档检测处理进行区分,本实施例的基于属性信息的检测处理可以
称为视觉效果检测处理,在视觉效果检测处理时,可以先获得文档内容的属性信息,再基于该属性信息确定视觉效果检测处理的检测结果。
[0032]可以理解的是,本实施例的文档检测处理,除了上述的视觉效果检测处理之外,还可以包括其他的文档检测处理方案,比如,还可以包括查重检测,反作弊检测,每种检测处理都可以获得各自对应的检测结果,之后可以基于多种检测处理的检测结果获得最终的检测结果,再基于最终的检测结果确定对文档进行上线发布或者进行下线处理。比如,任一种检测处理的检测结果为未通过,则对文档进行下线处理,将通过所有检测处理的文档进行上线发布。
[0033]获得文档内容的属性信息后,可以基于该属性信息确定待检测文档的检测结果。假设属性信息为字符大小,若文档内容的字符大小小于预设字符大小阈值时,则确定对应的检测结果为未通过检测,预设字符大小阈值可以根据实际情况设定,比如为5px。或者,假设属性信息为字符颜色,若文档内容的字符颜色为预设颜色,则确定对应的检测结果为未通过检测。由于一般文档为白底黑字,而恶意上传者为了逃避审核,会将字符的颜色更改为与底色一样,即更改为白色,因此,为了检测出这些恶意更改的文档,上述的预设颜色可以为白色。
[0034]本实施例中,通过基于文档内容的属性信息确定检测结果,可以避免通常检测文档内容时的漏检问题,提高文档检测的精准度。
[0035]一些实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档检测方法,包括:获取待检测文档;对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息;基于所述属性信息,确定所述视觉效果检测处理的检测结果。2.根据权利要求1所述的方法,其中,所述待检测文档为压缩文档,所述对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息,包括:对所述待检测文档进行解压缩处理,以获得所述待检测文档对应的解压缩文件,所述解压缩文件中包括所述属性信息;对所述解压缩文件进行解析,以获得所述属性信息。3.根据权利要求2所述的方法,其中,所述待检测文档为ooxml文档,所述解压缩文件为json文件,所述解压缩文件中还包括:所述属性信息对应的文本内容,所述属性信息包括字符颜色,所述基于所述属性信息,确定所述视觉效果检测处理的检测结果,包括:若所述字符颜色为预设颜色,且,所述文本内容为可见内容,获取所述文本内容对应的背景信息;若所述背景信息为背景颜色,且所述背景颜色与所述字符颜色一致,确定所述视觉效果检测结果为未通过检测;若所述背景信息为背景图片,获取所述背景图片中的待检测区域内的所有像素点中各个像素点的像素值,所述待检测区域与所述文本内容的位置区域一致,若所述各个像素点的像素值均与所述字符颜色一致,确定所述视觉效果检测结果为未通过检测。4.根据权利要求2所述的方法,其中,所述待检测文档为ooxml文档,所述解压缩文件为json文件,所述解压缩文件还包括:所述属性信息对应的文本内容,所述属性信息包括字符大小,所述基于所述属性信息,确定所述视觉效果检测处理的检测结果,包括:若所述字符大小小于预设大小,且,所述文本内容为可见内容,获取小于预设大小的所述文本内容的占比,以及,小于预设大小的所述文本内容的数量;若所述占比小于预设占比,且,所述数量大于预设数量,确定所述视觉效果检测结果为未通过检测。5.根据权利要求1

4任一项所述的方法,其中,所述文档内容包括至少一个内容单元,所述基于所述属性信息,确定所述视觉效果检测处理的检测结果,包括:在所述至少一个内容单元中确定出待检测单元,所述待检测单元中包括的字符数量大于预设数量阈值;基于所述待检测单元对应的属性信息,确定所述视觉效果检测处理的检测结果。6.一种文档检测装置,包括:获取模块,用于获取待检测文档;解析模块,用于对所述待检测文档进行视觉效果检测处理,以获得所述待检测文档中的文档内容对应的属性信息;检测模块,用于基于所述属性信息,确定所述视觉效果检测处理的检测...

【专利技术属性】
技术研发人员:黄海平孙伟何洋于一笑
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1