一种降低PDF文件错别字检测误报率的方法及系统技术方案

技术编号：43032488 阅读：26 留言：0更新日期：2024-10-18 17:34

本发明专利技术涉及一种降低PDF文件错别字检测误报率的方法及系统，包括采集待检测PDF文件提取第一待检测文本，对第一待检测文本进行错别字检测，获取第一待检测文本的错别字检测结果构成第一文本错别字集合；格式化第一待检测文本获取第二待检测文本；对第二待检测文本进行错别字检测获取第二待检测文本的错别字检测结果；基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息并构成第二文本错别字集合；对第一文本错别字集合和第二文本错别字集合取交集，作为最终错别字检测结果。本发明专利技术通过将文本格式化后进行二次检测能够有效提高错别字检测的准确率，降低错别字的误报率，进而有效提升PDF文件文本校正效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据识别，尤其涉及一种降低pdf文件错别字检测误报率的方法及系统。

技术介绍

1、随着信息技术的发展，以信息传递形式多元化为特征的时代已经到来,在日常生产生活中,人们接收文字信息的来源越来越多，如街边广告/自媒体博文等。同时，由于社会节奏的加快，大多广泛传播性文字内容呈现碎片化、精简化趋势，如公益宣传标语海报、广告海报中的商品特点文案等。这些文字内容由于具有残缺、繁多、分布杂乱等特点，使得对这些文稿进行校对与纠错将耗费大量的人力与时间。

2、错别字检测是一种应用非常广泛的文本校对技术，其中涉及到对pdf文件的检测。如果要批量检测pdf文件，常用的方式是先将pdf中的文本抽取出来，再使用错别字检测系统对抽取出的文本做检测。这里就引入了一个问题，市面上常用的抽取文本的技术或工具，比如开源的apache pdfbox库，都无法避免受到pdf中的表格、图片、分页符、不可见字符等干扰，导致提取出来的文本不对齐。对这种不对齐的文本做错别字检测，就会产生大量的误报。

3、针对pdf文件错别字检测存在大量误报的问题，需要提供一个新的pdf文件错别字检测方法来降低错别字检测误报率，对错别字进行有效识别和修正。

技术实现思路

1、本专利技术的目的在于提供一种降低pdf文件错别字检测误报率的方法及系统，以解决pdf文件错别字检测过程中错别字误报率高的问题。为实现上述专利技术目的之一，本专利技术一实施例提供一种降低pdf文件错别字检测误报率的方法，所述方法包括，p>

2、获取第一待检测文本，对所述第一待检测文本进行错别字检测，获取第一待检测文本的错别字检测结果构成第一文本错别字集合；对所述第一待检测文本进行格式化，获取第二待检测文本；对所述第二待检测文本进行错别字检测，获取第二待检测文本的错别字检测结果；基于所述第二待检测文本的错别字检测结果获取第二待检测文本中错别字在所述第一待检测文本中对应的位置信息并构成第二文本错别字集合；对所述第一文本错别字集合和所述第二文本错别字集合取交集，作为最终错别字检测结果。

3、作为本专利技术一实施方式的进一步改进，所述方法还包括，

4、所述获取第一待检测文本包括，采集待检测pdf文件，利用apache pdfbox库从所述待检测pdf文件中提取文本信息作为第一待检测文本。

5、作为本专利技术一实施方式的进一步改进，所述方法还包括，

6、所述对所述第一待检测文本/第二待检测文本进行错别字检测包括，利用错别字词库检测、正则脚本检测或纠错模型检测技术对第一待检测文本/第二待检测文本进行错别字检测，获取错别字信息、纠正后的文字信息、错别字所在上下文信息、错别字的起始位置信息和终止位置信息作为错别字检测结果。

7、作为本专利技术一实施方式的进一步改进，所述方法还包括，

8、所述第一/第二文本错别字集合包括，错别字信息、错别字在第一待检测文本中所对应的位置信息，所述第一待检测文本中所对应的位置信息包括错别字在第一待检测文本中所对应的起始位置信息和终止位置信息。

9、作为本专利技术一实施方式的进一步改进，所述方法还包括，

10、所述对第一待检测文本进行格式化至少包括，去除所述第一待检测文本中连续重复出现次数超过预设值的汉字、去除第一待检测文本中的空格、回车和换行。

11、作为本专利技术一实施方式的进一步改进，所述方法还包括：所述基于所述第二待检测文本的错别字检测结果获取第二待检测文本中错别字在所述第一待检测文本中对应的位置信息包括，

12、使用位置映射算法将第二待检测文本中错别字的位置信息映射至第一待检测文本中并获取其在第一待检测文本中的位置信息，具体位置映射步骤为：

13、对文本进行格式化操作时记录格式化操作信息，所述记录格式化操作信息至少包括记录删除的汉字、空格、回车或换行的起始位置和长度；

14、遍历第二待检测文本，基于记录的格式化操作信息计算每个起始位置的累积偏移量，所述累积偏移量包括从文本开始到当前起始位置，格式化操作导致的总长度减少量；

15、获取第二待检测文本中的错别字起始位置所对应的累积偏移量，将第二待检测文本中的错别字起始位置减去对应的累积偏移量，得到第二待检测文本中的错别字在第一待检测文本中的起始位置，并根据错别字长度获取第二待检测文本中的错别字在第一待检测文本中的终止位置，最终将第二待检测文本中的错别字在第一待检测文本中所对应的起始位置和终止位置作为第二待检测文本中的错别字在第一待检测文本中对应的位置信息。

16、作为本专利技术一实施方式的进一步改进，所述方法还包括，所述对所述第一文本错别字集合和所述第二文本错别字集合取交集，作为最终错别字检测结果包括，

17、将第一文本错别字集合和第二文本错别字集合中的错别字信息及错别字位置信息作为一个整体进行对比，当错别字信息及其位置信息在第一文本错别字集合和第二文本错别字集合中均存在时，将该错别字信息及其位置信息进行记录，作为最终的错别字检测结果；否则，判定错别字误报，不予记录。

18、为实现上述专利技术目的之一，本专利技术一实施例还提供一种降低pdf文件错别字检测误报率的系统，所述系统包括，

19、采集模块，用于采集待检测pdf文件并获取第一待检测文本；

20、检测模块，用于对第一待检测文本和第二待检测文本进行错别字检测；

21、数据处理模块，用于对第一待检测文本进行格式化，并基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息；

22、错别字输出模块，用于对第一文本错别字集合和所述第二文本错别字集合取交集，将两次出现的错别字作为最终错别字检测结果并输出。

23、为实现上述专利技术目的之一，本专利技术一实施例还提供一种电子设备，包括存储器以及处理器，其特征在于，所述存储器中存储可在所述处理器上运行的计算机程序，所述处理器上执行程序时实现如上任意一项所述一种降低pdf文件错别字检测误报率的方法中的步骤。

24、为实现上述专利技术目的之一，本专利技术一实施例还提供一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上任意一项所述一种降低pdf文件错别字检测误报率的方法中的步骤。

25、与现有技术相比，本专利技术提供的一种降低pdf文件错别字检测误报率的方法通过apache pdfbox库来提取pdf文件中的文本信息，利用错别字检测技术对从pdf提取的文本进行检测获取可能的错别字及其位置信息，再将从pdf文件中提取的文本格式化后进一步进行错别字检测，将两次检测的取交集获得最终的错别字检测结果；通过将文本格式化能够有效降低pdf文本提取过程中表格、图片、分页符、空格符、换行符等不可见字符的干扰，进而提高错别字识别的准确率；通过比较两次错别字检测的结果进一步提高了错别字检测的准确率，也降低了错别字的误报率，进而有效提升pdf文件文本文档来自技高网...

【技术保护点】

1.一种降低PDF文件错别字检测误报率的方法，其特征在于：包括，

2.根据权利要求1所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述采集待检测PDF文件并提取第一待检测文本包括，

3.根据权利要求1所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述对所述第一待检测文本/第二待检测文本进行错别字检测包括，

4.根据权利要求1或3所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述第一/第二文本错别字集合包括，

5.根据权利要求1所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述对第一待检测文本进行格式化至少包括，

6.根据权利要求1所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述基于所述第二待检测文本的错别字检测结果获取第二待检测文本中错别字在所述第一待检测文本中对应的位置信息包括，

7.根据权利要求1所述的一种降低PDF文件错别字检测误报率的方法，其特征在于：所述对所述第一文本错别字集合和所述第二文本错别字集合取交集，作为最终错别字检测结果包括，

8.一种降低PDF文件错别字检测误报率的系统，其特征在于：包括，

9.一种电子设备，包括存储器以及处理器，其特征在于：所述存储器中存储可在所述处理器上运行的计算机程序，所述处理器上执行程序时实现如权利要求1-7任意一项所述行政区划的错误检测方法中的步骤。

10.一种存储介质，所述存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述一种降低PDF文件错别字检测误报率的方法中的步骤。

...

【技术特征摘要】

1.一种降低pdf文件错别字检测误报率的方法，其特征在于：包括，

2.根据权利要求1所述的一种降低pdf文件错别字检测误报率的方法，其特征在于：所述采集待检测pdf文件并提取第一待检测文本包括，

3.根据权利要求1所述的一种降低pdf文件错别字检测误报率的方法，其特征在于：所述对所述第一待检测文本/第二待检测文本进行错别字检测包括，

4.根据权利要求1或3所述的一种降低pdf文件错别字检测误报率的方法，其特征在于：所述第一/第二文本错别字集合包括，

5.根据权利要求1所述的一种降低pdf文件错别字检测误报率的方法，其特征在于：所述对第一待检测文本进行格式化至少包括，

6.根据权利要求1所述的一种降低pdf文件错别字检测误报率的方法，其特征在于：所述基于所述第二待检测...

【专利技术属性】
技术研发人员：冯立二，王宁，张发雨，党章，孟奥，杨正云，杜宇，张海洋，徐刚，
申请(专利权)人：江苏省未来网络创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人