System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,具体涉及一种电子文档检测方法、装置、电子设备及存储介质。
技术介绍
1、在公共资源交易中,保障交易的公开、公平、公正至关重要,需要对交易异常行为实时监测预警。目前在公共资源交易中检测投标文件异常行为存在一些问题。例如,检测手段单一,要么关注硬件物理特征码,要么仅进行表面文本相似性检测,难以发现语义、风格相似等深层次问题;对于图片等非文本内容无法有效检测;不能检测如dna同源相似这类复杂异常情况;人工参与度高致使效率低且易出现误判和漏判现象。
技术实现思路
1、本申请提供一种电子文档检测方法、装置、电子设备及存储介质,旨在解决投标文件检测存在检测维度有限和人工检测弊端的问题。
2、第一方面,本申请提供一种电子文档检测方法,所述方法包括:
3、获取待检测的电子文档集;
4、针对所述电子文档集中的每个电子文档,根据关键要素维度、表面文本维度、文本风格维度、深层次语义维度、图像内容维度以及文档结构同源性维度,分别计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果;
5、对所述各维度的检测结果进行整合,得到综合评估数据,所述综合评估数据包含不同维度检测得出的有关电子文档间相似性的信息。
6、第二方面,本申请还提供一种电子文档检测装置,所述装置包括:
7、数据获取模块,用于获取待检测的电子文档集;
8、多维度检测模块,用于针对所述电子文档集中的每个电子文档,根据关键要素维度
9、结果整合模块,用于对所述各维度的检测结果进行整合,得到综合评估数据,所述综合评估数据包含不同维度检测得出的有关电子文档间相似性的信息。
10、第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述电子文档检测方法的步骤。
11、第四方面,本申请提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述电子文档检测方法的步骤。
12、本申请提供的一种电子文档检测方法、装置、电子设备及存储介质,旨在解决投标文件检测存在检测维度有限和人工检测弊端的问题,该方法采用了多维度的检测方式,涵盖关键要素维度、表面文本维度、文本风格维度、深层次语义维度、图像内容维度以及文档结构同源性维度。例如,在关键要素维度深入到专业领域词汇中的非常用表述,图像内容维度考虑除特定图片外的其他图片情况,各维度下还分别计算投标文件间的相似度,像深层次语义维度会深度解析大段文字的语义和逻辑顺序,极大地拓宽了检测范围。
13、因此,本申请基于多维度计算相似度并得出检测结果,避免了人工检测的主观性和低效率。同时,通过对各维度检测结果进行整合得到综合评估数据,能够系统地处理不同维度下关于投标文件相似性的信息,克服了人工难以全面综合考量的问题。
本文档来自技高网...【技术保护点】
1.一种电子文档检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的电子文档检测方法,其特征在于,所述根据关键要素维度、表面文本维度、文本风格维度、深层次语义维度、图像内容维度以及文档结构同源性维度,分别计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
3.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述关键要素维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
4.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述表面文本维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
5.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述文本风格维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
6.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述深层次语义维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
>7.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述图像内容维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
8.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述文档结构同源性维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
9.根据权利要求1所述的电子文档检测方法,其特征在于,所述对所述各维度的检测结果进行整合,得到综合评估数据的步骤包括:
10.一种电子文档检测装置,其特征在于,所述装置包括:
11.一种电子设备,包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的电子文档检测方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的电子文档检测方法的步骤。
...【技术特征摘要】
1.一种电子文档检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的电子文档检测方法,其特征在于,所述根据关键要素维度、表面文本维度、文本风格维度、深层次语义维度、图像内容维度以及文档结构同源性维度,分别计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
3.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述关键要素维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
4.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述表面文本维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
5.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述文本风格维度,计算该电子文档与其余电子文档在各维度下的相似度,得到各维度的检测结果的步骤包括:
6.根据权利要求2所述的电子文档检测方法,其特征在于,根据所述深层次语义维度,计算该电子文档与其余电子文档在各维度下的相似...
【专利技术属性】
技术研发人员:洪珑玮,汤熙,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。