图像处理系统和图像处理方法技术方案

技术编号:24805837 阅读:54 留言:0更新日期:2020-07-07 22:14
本发明专利技术公开了图像处理系统和图像处理方法。提供了一种图像处理系统,该图像处理系统使用神经网络来校正通过光学字符识别(OCR)获得的文本,该神经网络已经基于OCR的错误识别部分和在错误识别部分附近的文本执行了学习。该图像处理系统获取已经基于学习数据执行了学习的神经网络模型,在学习数据中,包括在打印数据中的第一文本信息和通过对基于打印数据的图像执行光学字符识别(OCR)处理而获取的第二文本信息彼此关联;获取读取的图像;获取通过对读取的图像执行OCR处理而生成的第三文本信息;以及基于神经网络模型根据第三文本信息的输入而输出第四文本信息。

【技术实现步骤摘要】
图像处理系统和图像处理方法
本专利技术的各方面一般而言涉及图像处理系统和图像处理方法。
技术介绍
将图像数据中包括的字符图像识别为字符并因此将字符图像转换成文本数据的已知技术包括称为“光学字符识别”(以下称为“OCR”)的技术。OCR用于利用计算机化的数据中包括的字符信息。例如,称为例如多功能外围设备(MFP)的图像处理装置配备有将通过OCR获取的文本数据与图像数据进行组合以生成可搜索的便携式文档格式(PDF)数据的功能。可搜索的PDF数据允许搜索作为字符包括在图像数据中的字符图像,因此便利性极好。此外,现有的OCR技术可能经常错误地识别图像中包括的字符并输出包含错误的文本数据。这种错误识别的原因包括字符以外的信息(诸如图像中包括的背景或格线)的影响、图像的倾斜以及图像中包括的噪声的影响。如果以上面提到的方式在通过OCR获得的文本中包含错误,那么使用字符信息的各种功能的便利性会降低。日本专利申请公开No.2011-150436讨论了一种创建用于OCR的错误规则和用于校正的字典以校正通过OCR获得的文本的技术。错误规则是用于检测文本校正目标的规则,并且包括例如在汉字(日语书写系统中使用的中文字符)和汉字之间出现片假名(日语音节,日语书写系统的一个组成部分)的一个字母的情况下将片假名的这个字母设置为校正目标的规则。在这个规则的情况下,包括在字符“重カ(片假名)加速度”中的字符“カ”被设置为校正目标。而且,用于校正的字典将错误识别和正确内容的模式(pattern)保留为字典。例如,将字符“重カ(片假名)”和字符“重力(汉字)”的对保留在字典中,并且在出现适用的模式的情况下,执行用对应的正确内容替换错误识别的字符的处理。但是,在日本专利申请公开No.2011-150436中讨论的技术在文本校正的准确性上有提高的空间。例如,在字符“動”被错误地识别为词“重力”的这种类型的错误识别的情况下,在日本专利申请公开No.2011-150436中描述的错误规则无法检测到这种错误识别。而且,如果使用在检测到词“重力”时必然将词“重力”转换成字符“動”的规则和校正字典,那么已通过OCR被正确识别为字符“重力加速度”的术语可能用不同的术语(诸如字符“動加速度”)替换。因而,期望将在OCR之后执行的文本校正处理不是将基于逐个词或逐个字符来执行的校正处理,而是将考虑有关的一个或多个字符周围的上下文来执行的校正处理。换句话说,期望使用神经网络来执行文本校正处理,该神经网络已经不仅基于被OCR错误识别的部分的文本而且还基于出现在错误识别的部分周围的文本来执行学习。
技术实现思路
根据本专利技术的一个方面,一种图像处理系统,包括:被配置为获取神经网络模型的单元,该神经网络模型已经基于学习数据进行了训练,在学习数据中,打印数据中包括的第一文本信息和通过对基于打印数据的图像执行光学字符识别(OCR)处理而获取的第二文本信息彼此关联;被配置为获取扫描仪获得的图像的单元;被配置为获取通过对扫描仪获得的图像执行OCR处理而生成的第三文本信息的单元;以及被配置为基于神经网络模型根据第三文本信息的输入来输出第四文本信息的单元。通过参考附图对示例性实施例的以下描述,本专利技术的其它特征将变得清楚。附图说明图1是例示根据第一示例性实施例的图像处理系统的配置的图。图2A是例示图像处理装置的配置的图。图2B是例示学习装置的配置的图。图2C是例示图像处理服务器的配置的图。图3是例示学习数据的构成的图。图4是例示学习数据的示例的图。图5A是例示对于扫描功能的设置画面的图。图5B是例示对于扫描功能的传输指令画面的图。图6是例示对于图像处理系统的使用序列的图。图7是例示学习处理的流程的流程图。图8A是例示扫描处理的流程的流程图。图8B是例示光学字符识别(OCR)处理的流程的流程图。图9A是例示读取的原稿的配置的图。图9B是例示OCR结果的图。图9C是用于解释OCR结果的整形的图。图10A是例示日语中的文本校正的第一示例的图。图10B是例示日语中的文本校正的第二示例的图。图10C是例示日语中的文本校正的第三示例的图。图11A是例示英语中的文本校正的示例的图。图11B是例示中文中的文本校正的示例的图。图12是例示根据第二示例性实施例的图像处理系统的配置的图。图13是例示自动学习设置画面的图。图14是例示根据第二示例性实施例的图像处理系统的学习序列的图。图15A是例示学习数据生成请求处理的流程的流程图。图15B是例示学习数据生成处理的流程的流程图。图16是例示图像模拟处理的流程的流程图。图17是用于解释文本匹配的图。图18是例示文本匹配处理的流程的流程图。图19A是例示根据第三示例性实施例的图像处理系统的学习序列的图。图19B是例示打印机驱动程序画面的图。图20A是例示根据第四示例性实施例的图像处理系统的学习序列的图。图20B是例示打印作业选择画面的图。具体实施方式下面将参考附图详细描述本专利技术的各种示例性实施例、特征和方面。此外,用于实现本专利技术的配置不仅限于以下示例性实施例中描述的配置。在获得类似效果的范围内,以下示例性实施例中描述的配置的一个或多个部分能够被省略或被其等同物替代。<图像处理系统>图1是例示根据第一示例性实施例的图像处理系统的配置的图。图像处理系统100包括图像处理装置101、学习装置102和光学字符识别(OCR)服务器103。图像处理装置101、学习装置102和OCR服务器103经由网络104互连。例如是多功能外围设备(MFP)的图像处理装置101是具有打印功能和扫描功能的装置,并且用作图像获取单元111。图像处理装置101扫描其中包含字符图像的原稿,并因此生成用作处理目标的扫描的图像数据(以下,所生成的扫描的图像数据被称为“处理目标图像”)。然后,图像处理装置101经由网络104将处理目标图像传输到OCR服务器103。学习装置102执行系列转换模型的学习并因此用作学习单元113,学习单元113生成学习结果(例如,神经网络的参数)。学习装置102经由网络104将学习结果传输到OCR服务器103。OCR服务器103用作OCR单元114,OCR单元114对由图像处理装置101生成的处理目标图像执行OCR处理。OCR服务器103提取其中包含处理目标图像中包括的字符的区域的部分图像(在下文中,该部分图像被称为“字符区域图像”,并且从原稿数据获取的从其生成处理目标图像的字符文本被称为“正确答案文本”),并对每个字符区域图像执行OCR。然后,OCR服务器103使用由学习装置102生成的学习结果,使用神经网络对通过OCR获取的文本(以下称为“OCR文本”)执行转换。因此,OCR服务器103用作文本校正单元115。在下文中,这种转换被称为“文本人工智能(AI)校正”,并且通过文本AI校正而获得的文本被称为“经校正的文本”。使用神经本文档来自技高网
...

【技术保护点】
1.一种图像处理系统,包括:/n用于获取神经网络模型的部件,该神经网络模型已经基于学习数据进行了训练,在学习数据中,打印数据中包括的第一文本信息和通过对基于打印数据的图像执行光学字符识别OCR处理而获取的第二文本信息彼此关联;/n用于获取扫描仪获得的图像的部件;/n用于获取通过对扫描仪获得的图像执行OCR处理而生成的第三文本信息的部件;以及/n用于基于神经网络模型根据第三文本信息的输入来输出第四文本信息的部件。/n

【技术特征摘要】
20181225 JP 2018-2417231.一种图像处理系统,包括:
用于获取神经网络模型的部件,该神经网络模型已经基于学习数据进行了训练,在学习数据中,打印数据中包括的第一文本信息和通过对基于打印数据的图像执行光学字符识别OCR处理而获取的第二文本信息彼此关联;
用于获取扫描仪获得的图像的部件;
用于获取通过对扫描仪获得的图像执行OCR处理而生成的第三文本信息的部件;以及
用于基于神经网络模型根据第三文本信息的输入来输出第四文本信息的部件。


2.根据权利要求1所述的图像处理系统,还包括用于使神经网络模型基于学习数据来执行学习的部件。


3.根据权利要求1所述的图像处理系统,还包括用于基于第一文本信息和第二文本信息来生成学习数据的部件。


4.根据权利要求1所述的图像处理系统,还包括用于基于打印数据来生成第一文本信息和第二文本信息的部件。


5.根据权利要求1所述的图像处理系统,其中基于从打印数据中获得的一页的信息来生成多条学习数据。


6.根据权利要求1所述的图像处理系统,其中第一文本信息和第二文本信息是其中第一文本信息和第二文本信息之间的关系满足预定条件的组合。


7.根据权利要求6所述的图像处理系统,其中预定条件是通过预定方法计算的相似度为预定值或更大。


8.根据权利要求1所述的图像处理系统,其中打印数据是页面描述语言PDL格式的数据。


9.根据权利要求1所述的图像处理系统,还包括用于将至少基于第四文本信息的数据传输到预定目的地的部件。


10.根据权利要求9所述的图像处理系统,其中预定目的地是通过电子邮件地址指定的目的地。


11.根据权利要求9所述的图像处理系统,其中预定目的地是在本地存储装置中分配的存储区域。


12.根据权利要求9所述的图像处理系统,其中预定目的地是云服务器。


13.根据权利要求9所述的图像处理系统,其中预定目的地是网络连接到图像处理系统的另一个装置提供的共享文件夹。


14.根据权利要求9所述的图像处理系统,其中基于第四文本信息的数据是页面描述语言PDL格式的数据。


15.根据权利要求14所述的图像处理系统,其中PDL格式的数据包括可搜索的字符信息。


16.根据权利要求1所述的图像处理系统,还包括确定部件,该确定部件用于关于是否使用从外部装置接收的打印数据来生成学习数据进行确定。


17.根据权利要求16所述的图像处理系统,还包括用于使显示设备显示设置画面的部件,经由该设置画面,能够执行与确定部件有关的设置。


18.根据权利要求16...

【专利技术属性】
技术研发人员:大石刚
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1