扫描文字修正方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22075864 阅读:32 留言:0更新日期:2019-09-12 14:11
本申请涉及数据分析领域,特别涉及一种扫描文字修正方法、装置、计算机设备和存储介质。所述方法包括:接收用户终端发送的扫描文档;获取与扫描文档对应的内容关键词;将扫描文档和内容关键词输入训练好的错误联想词库模型中,以从扫描文档中识别出与内容关键词对应的待纠正部分,其中,错误联想词库模型是根据错误样本与错误样本对应的准确词建立的;将待纠正部分替换为内容关键词。采用本方法能够修正扫描文件识别不准确的问题。

Scanning Text Correction Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
扫描文字修正方法、装置、计算机设备和存储介质
本申请涉及扫描文字修正
,特别是涉及一种扫描文字修正方法、装置、计算机设备和存储介质。
技术介绍
随着数据技术的发展,越来越多的信息都通过网络处理和交互,因而对于纸质材料转换为电子格式的技术也层出不穷。传统地,终端多采用OCR(OpticalCharacterRecognition,光学字符识别)技术检查图片上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。然而,专利技术人意识到,终端在通过OCR技术识别图片中的文字时,可能因为采集图片的设备质量较差,如相机像素较低,或者采集环境的光线较弱等原因造成识别出的文字出现部分受损,导致文字识别不准确。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够修正扫描文件识别不准确的扫描文字修正方法、装置、计算机设备和存储介质。一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;将所述待纠正部分替换为所述内容关键词。在其中一个实施例中,所述将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,包括:将所述内容关键词进行拆分得到内容单字;将所述内容单字按照所述内容单字在所述内容关键词中的排列顺序输入训练好的错误联想词库模型中;将所述扫描文档输入所述错误联想词库模型中,根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分。在其中一个实施例中,所述根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分,包括:根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序识别所述扫描文档中的错别字;将所述错别字输入所述错误联想词库模型得到所述错别字对应的备选字;将所述错别字替换为所述备选字,并将所述内容单字与所述备选字按照所述内容关键词中的排列顺序进行组合得到待检验关键词;判断所述待检验关键词与所述内容关键词是否一致;若一致,将所述待检验关键词作为待纠正部分。在其中一个实施例中,所述判断所述待检验关键词与所述内容关键词是否一致之后,还包括:若不一致,生成错误信息;将所述错误信息发送至管理终端,并接收所述管理终端根据所述错误信息返回的更新指令;根据所述更新指令更新所述错误联想词库模型;将所述错别字输入更新后的所述错误联想词库模型得到所述错别字对应的备选字,继续所述将所述错别字替换为所述备选字,直至所述待检验关键词与所述内容关键词一致。在其中一个实施例中,所述从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,包括:当识别到所述扫描文档中的一个待纠正部分时,检查所述扫描文档中所有与所述待纠正部分内容相同的部分;所述将所述待纠正部分替换为所述内容关键词,包括:将所述扫描文档中所有与所述待纠正部分内容相同的部分都替换为所述内容关键词。在其中一个实施例中,所述将所述待纠正部分替换为所述内容关键词之后,还包括:将替换所述内容关键词后的所述扫描文档发送至所述用户终端;接收所述用户终端根据所述替换所述内容关键词后的所述扫描文档返回的更正请求,所述更正请求携带有更正关键词;将所述更正关键词作为内容关键词,继续所述将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,根据所述错误联想词库识别以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分。一种扫描文字修正装置,所述装置包括:文档接收模块,用于接收用户终端发送的扫描文档;关键词获取模块,用于获取与所述扫描文档对应的内容关键词;错误分析模块,用于将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;纠正模块,用于将所述待纠正部分替换为所述内容关键词。在其中一个实施例中,所述错误分析模块包括:拆分单元,用于将所述内容关键词进行拆分得到内容单字;词库分析单元,用于将所述内容单字按照所述内容单字在所述内容关键词中的排列顺序输入训练好的错误联想词库模型中;待纠正部分识别单元,用于将所述扫描文档输入所述错误联想词库模型中,根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。上述扫描文字修正方法、装置、计算机设备和存储介质,服务器接收用户终端发送的扫描文档,对扫描文档进行关键词提取,并根据训练好的错误联想词库模型和提取得到的内容关键词识别扫描文档中的待纠正部分,并对其进行纠正。终端对待处理的文档进行扫描得到的文档的图片,对其进行字形识别得到扫描文档,并发送给服务器,服务器结合此文档的关键词,根据训练的错误联想词库模型对扫描文档中错误的部分进行纠正,修正扫描文件识别不准确的内容。附图说明图1为一个实施例中扫描文字修正方法的应用场景图;图2为一个实施例中扫描文字修正方法的流程示意图;图3为一个实施例中拆分纠正步骤的流程示意图;图4为一个实施例中扫描文字修正装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的扫描文字修正方法,可以应用于如图1所示的应用环境中。服务器104接收用户终端102发送的扫描文档,对扫描文档进行关键词提取,并根据训练好的错误联想词库模型和提取得到的内容关键词识别扫描文档中的待纠正部分,并对其进行纠正。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种扫描文字修正方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:S202,接收用户终端发送的扫描文档。其中,扫描文档是用户终端通过图片采集设备对目标文档进行扫描或拍摄得到的目标文档的图片,并对图片中的文字内容进行识别得到可编辑的文档。目标文档是用户想要进行扫描并转化为可编辑文字的文档,例如法律文件或技术文档等。扫描设备为终端内置或外接的扫描设备,如手机或电脑的摄像头,或者电脑外接的扫描仪等。终端采集到目标文档的图片后,可以通过终端内置或外接的内容识别设备将目标文档的图片转化为可编辑的文字(或字符)形式,得到扫描文档。其中,内容识别设备是用于将本文档来自技高网...

【技术保护点】
1.一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;将所述待纠正部分替换为所述内容关键词。

【技术特征摘要】
1.一种扫描文字修正方法,所述方法包括:接收用户终端发送的扫描文档;获取与所述扫描文档对应的内容关键词;将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,其中,所述错误联想词库模型是根据错误样本与所述错误样本对应的准确词建立的;将所述待纠正部分替换为所述内容关键词。2.根据权利要求1所述的方法,其特征在于,所述将所述扫描文档和所述内容关键词输入训练好的错误联想词库模型中,以从所述扫描文档中识别出与所述内容关键词对应的待纠正部分,包括:将所述内容关键词进行拆分得到内容单字;将所述内容单字按照所述内容单字在所述内容关键词中的排列顺序输入训练好的错误联想词库模型中;将所述扫描文档输入所述错误联想词库模型中,根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分。3.根据所述权利要求2所述的方法,其特征在于,所述根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序从所述扫描文档中获取所述内容关键词对应的待纠正部分,包括:根据所述内容单字和所述内容单字在所述内容关键词中的排列顺序识别所述扫描文档中的错别字;将所述错别字输入所述错误联想词库模型得到所述错别字对应的备选字;将所述错别字替换为所述备选字,并将所述内容单字与所述备选字按照所述内容关键词中的排列顺序进行组合得到待检验关键词;判断所述待检验关键词与所述内容关键词是否一致;若一致,将所述待检验关键词作为待纠正部分。4.根据权利要求3所述的方法,其特征在于,所述判断所述待检验关键词与所述内容关键词是否一致之后,还包括:若不一致,生成错误信息;将所述错误信息发送至管理终端,并接收所述管理终端根据所述错误信息返回的更新指令;根据所述更新指令更新所述错误联想词库模型;将所述错别字输入更新后的所述错误联想词库模型得到所述错别字对应的备选字,继续所述将所述错别字替换为所述备选字,直至所述待检验关键词与所述内容关键词一致。5.根据权利要求1所述的方法,其特征在于,所述从所述扫描文档中识别出与所述内容关键词对应...

【专利技术属性】
技术研发人员:许剑勇
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1