信息处理方法和设备技术

技术编号:2891512 阅读:146 留言:0更新日期:2012-04-11 18:40
当由OCR识别的文本被寄存且这些文本被一个检索字检索时,可消除一种状况,即在用OCR识别时依靠错误识别不能进行检索的状况。本发明专利技术之目的在于实现这样一种处理:不因上述状况而把负担加于操作者或设备。在此提供一种OCR处理器(2),用于识别储存的图像信息和输出识别的结果,同时按照似然度转换将作为识别结果而输出的候选字符数;和一种资料检索器(3),用于形成字符串以便从识别结果检索且作为检索文件而寄存。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种信息处理方法和设备,它利用一种字符识别功能,例如OCR(光学字符识别)功能或类似功能,把输入图象信息转换成一种文本。本专利技术还涉及另一种信息处理方法和设备,它能够从一种文本形成一个检索数据库,该文本是利用一种字符识别功能,例如OCR功能或类似的功能,通过转换输入图象信号而得到的;它还能够检索所需要的数据。至今,当一个输入图象被一种OCR功能或类似功能识别并被转换成一种文本时,对于一个其中仅得出低相似性候选字符的输入字符,作为一种错误识别用的对策,就把相似性低的事实通知操作者,他可判断该候选字是正确还是错误。当它为错误时,就敦促操作者手工校正该错误的字符,并输入一个正确的字符。然而,根据这样一种方法,操作者必须不仅输入一个要转换成文本的图象,而且还要进行校正操作,因此存在着操作者感觉有负担的缺点。还有一种方法,藉此不仅可输出字符识别的结果,还可把由该字符识别得出的一个候选字符对照一本字典或一个知识库,从而校正一个被错误地识别的字符,而不必求助于操作者。然而,上述方法也存在一些缺点该字典或知识库必须存入校正过程用的一个存储器,并且这样一种使用它们的校正过程是复杂的,所花时间长,成为该设备的负担。本专利技术的一个目的在于消除操作者或设备的负担,用于把一个在OCR操作或类似操作的字符识别过程中可能产生的被错误地识别的字符校正成一个正确的字符;并使它能够有效地用于其他过程。本专利技术的另一个目的在于形成一个能够高质量地检索的数据库,而不必执行一种额外负担的过程,例如对在OCR操作或类似操作的字符识别过程中可能发生的被错误地识别的字符进行校正的过程。附图说明图1是一个OCR处理用的流程图;图2是一个用于资料检索的检索文件形成过程的流程图;图3是一个资料检索处理用的流程图;图4是一个实施例中信息处理设备的结构方块图;图5是一个在没有事先形成检索文件的情况下检索处理用的流程图。现在在下文详细描述本专利技术的一个实施例。图4是一个本实施例中处理系统的构造方块图。一个图象扫描器1是对用作识别目标的资料的初始图象进行光学读出用的图象输入装置。输入图象的方法不限于这样一种用图象扫描器或类似装置对图象进行光学读出的方法,而是也可能对用数字化仪、鼠标器或能够输入坐标系的类似装置这样的输入装置输入的手写字符图象进行输入。一个键盘/鼠标器5是用于操作者输入各种命令或指令信息的输入装置。该键盘或鼠标器还输入一个检索字和一个检索过程中的检索条件。一个显示器6是象CRT(阴极射线管)或液晶显示器之类的显示装置,用于显示从键盘/鼠标器5输入的信息、从图象扫描器1或类似装置输入的图象信息、该过程的进展、和该过程的结果。一个外存储器4是存储装置,用于存储从图象扫描器输入的图象数据、文本信息和检索文件。一个计算机10通过一个CPU(中央处理机)10—1的控制进行各种信息处理。将在下文描述的流程图所示各种信息处理的控制程序,已被存入一个存储器10—2。CPU10—1按照该控制程序执行和控制各种处理。一个用于字符识别的字典也已存入存储器10—2。一个按照需要由外存储装置或类似装置读出的控制程序,也能作为存入存储器10—2的控制程序而被使用。在本实施例中,提供一个OCR处理器2和一个资料检索器3,以执行由计算机10执行的主要处理,现在解释本实施例。字符识别方法不限于OCR处理,只要一个字符是由数字化仪、鼠标器或类似装置输入的笔画组成的手写字符,就足以提供一种处理单元,以便进行一种适合这样一个字符的在线字符识别。一种把用图象扫描器1或类似装置输入的初始图象的图象数据转换成文本信息的处理,示于图1流程图中,现在予以描述。把存入外存储器4、由图象扫描器1或类似装置输入的图象数据,输入到OCR处理器2(S1)中。作一种检验,看字符数据是否包含于输入图象数据中(S2)。如果是,就提取一个字符的图象数据(S3)。把所提取的一个字符对照字典,从此得出多个用作识别结果的字符代码,和一个作为与每个字符代码所指示的字典数据的相似性的似然值(likehood)LH(S4)。在作为S4中识别结果得出的字符代码中,使最大似然值LHMAX对照一个存入存储器10—2的预定有效似然性判断阈值Th1(S5)。当似然值等于或大于Th1时,就判定该识别结果是正确的,并且把这样一个在多个字符代码中的字符代码作为识别结果而输出(S6)。当在S5中似然值小于Th1时,为了存储用于一个字符代码图象数据的多个识别结果,一个定界符就作为标识(下文叫作ID)信息而输出(S7)。在S8中,处理流程根据操作者指定的方式,或由系统或S4中所得似然值设定的方式,进到S9或S11。在S9,在S4中所得的多个似然值中,一个对应于大于存储器10—2中所存的一个预定低识别似然性判断阈值Th2的似然值的字符代码,作为一个相应于字符代码图象数据的结果而输出。在S11,在S4中得出的多个字符代码中,最大识别候选者数目Nmax的字符代码,作为相应于一个字符代码图象数据的结果,按照来自有最大似然性的字符代码的顺序,相继地输出的。当相应于一个字符代码图象数据的结果被输出时,就输出一个定界符,作为指示字符结果结束的ID信息(S10)。当一个字符代码图象数据的识别和其结果的输出被完成时,重复S3至S11中的处理,同时更新用作目标的图象数据,直至在S2中判定不包含剩余的字符数据为止。在S6至S11中输出的这种代码信息是作为文本信息相继地存入外存储器中的。通过这样的处理,可避免这样一种状况,即识别结果在OCR识别似然值低且在识别中存在不可置信的情况下缩为一个;能够选择多个相应于识别似然性的最佳识别候选者;并且能够有效地储存和使用有效识别候选者信息,而不必放弃它。在指令形成一个检索文件以便由上述处理储存的文本信息能够用于尔后检索的情况下,一种检索文件形成过程示于图2流程图中,且将予以描述。在指令形成用于外存储器4中储存的文本信息的检索文件的情况下,在指定的文本数据被寄存于检索文件时索引用的一种字符键被指定(S21)。把指定的文本信息从外存储器4装入资料检索器3(S22)。从装入的文本信息读出一个字符代码的数据(S24)。当判定该字符代码表示一个定界符时(S25),直到下一个定界符的多个候选者与到此为止的字符串相结合,从而得出多个字符键。当在S25中判定字符代码不表示一个定界符时,就把这样一个字符代码在其终端加到字符键的字符串中(S27)。重复进行S25至S27中的处理,直至在S28中判字符键被完成为止。当在S28中判定字符键被完成时,把形成的字符键(单个或多个)加到外存储器4中的检索文件中的索引信息中(S29)。重复进行S24至S29中的处理,直至在S23中处理完全部字符数据为止,从而完成该装入文本信息的检索文件的形成。通过这样一些处理,使多个识别候选者字符结合于那些在来自通过识别输入图象得出的文本信息的字符前后的字符,并且按照要使用的那种索引字符键发展出字符串,从而预先形成一个索引。因此,可能减少由于错误识别而引起的检索漏失。通过使用按上述方法形成的检索文件而执行的检索处理,示于图3的流程图中,现在予以描述。按照检索处理指令输入一个检索字(S31)。把该输入检索字分析成适合于检索处理的检索键(S32)。使该检索键比本文档来自技高网...

【技术保护点】
一种信息处理方法,包括下述步骤: 储存图象信息; 识别所述储存图象信息的字符和输出字符代码及其似然值; 按照所述输出的似然值来判定用于一个字符图象信息的将被输出的候选字符的数;和 寄存一个包括候选字符的所述判字数的候选者的识别结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:椎山弘隆正木克己
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1