本发明专利技术提供一种作为对纸文件及文件图像进行文件检索的OCR装置、文件检索系统及文件检索手段,该手段是应用文字识别技术,检索含有给定关键词的文件群的方法。本发明专利技术的发明专利技术目的是通过提供一种系统,该系统将OCR装置和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的机能,实现必要的文件检索和文件分类。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及应用文字识别技术,从纸文件群或文件图像群中检索含有给定检索关键字的文件群,取得必要情报的文件检索与处理方法、装置以及文件检索处理程序。
技术介绍
即使是在计算机数字情报技术得以普及的现在,纸文件作为情报传递的媒体仍然应用广泛。但是,要想以某一关键词从大量文件中检索到必要的情报,或者对含有特定关键词群的文件进行检索和自动分类,对于这样的要求,纸文件与数字数据相比其处理明显困难得多。为解决这一问题,人们提出了各种各样的方法以进行纸文件的检索和自动处理。从纸文件或文件图像中检索必要关键词的手段有两种,即每次检索时以OCR(光学读取装置)对纸文件进行识别、检索的在线处理和先以OCR读取然后永久性保持其读取结果再进行检索的离线处理。例如,邮件区分机等装置可以说是属于在线处理。在这一在线处理过程中,因为指定了想要检索的关键词,根据关键词中包含的文字的特性(全角、半角、汉字、英文数字等等)改变文字切出的参数,或者在文字识别时加以文字种类的限定等,通过这样的处理就能提高检索精度。但是,因为每次检索时都必须进行图像解析和文字识别,因而在检索重复进行的情况下,计算时间方面不具备实用性。本专利技术提出的是基于离线处理的方法。对纸文件进行离线关键词检索的最基本的方法,是利用OCR将纸文件转换成文本文件,然后对文本文件进行检索。但是,一般情况下以OCR转换的文本文件中有错误,因而简单的文本检索就会产生无法处理的情况。当然,也可以人工修正OCR转换的文本文件,并针对修正结果进行检索。但是,这种人工介入的修正,在处理速度以及成本方面很难说具有实用性。作为提高OCR读取精度的手段,对OCR识别结果适用词素解析的方法属于公知技术(例如参照专利文献1)。通过词素解析等的知识处理,确实可以订正误读,但即使这样也不可能做到100%的订正。而且,在通常的词素解析中使用的词典是以新闻等一般性文章为对象,对于特殊业务用途的文件如果要做到高精度的校正,则需要追加定义适合该领域的特殊词典。这样,就会产生可维护性与计算量方面的问题。另外,为了避免文字误读给检索带来的不良影响,有人提出利用OCR容易误读的相似文字的情报进行单词检索的方法(例如参照专利文献2)。还有人提出在OCR的读取结果中允许有多个文字识别候补,从其中选择文字编码检索出单词的方法(例如参照专利文献3)。使用这些技术确实能避免1文字单位的误读给单词检索带来的不良影响。但是,在上述方法中,由于分离文字和文字间接触等原因,文字结构的边界不能明确确定,因而无法处理错误的文字结构切出的情况。例如,上述专利方法虽然能够处理OCR把写作“ハル”的文字读成“ヘル”的情况,但无法处理读成“ハノレ”的情况。而且,对于结合了图、表的文件、帐票等规线很多且混合在一起的文件,在文字读取之前文字行的检出和辨认往往很困难。上述方法无法处理这一问题,。专利文献1特开平05-108891号公报专利文献2特开平10-74250号公报专利文献3特开平9-134369号公报
技术实现思路
本专利技术的目的是提供一种以文字识别结果为基础,从纸文件群中检索必要关键词的单词检索方法和利用该结果进行文件检索、文件分类等处理的文件检索处理系统、装置以及记录检索处理程序的记录媒体。以现有技术对纸文件群进行的文件检索,是对作为OCR读取结果的文本进行检索,但难以处理文字破碎和飞白等导致的文字识别错误、文字结构边界模糊而导致的文字切出错误以及文本-插图-规线混杂而导致的OCR文字行提取错误。本专利技术的第一个目的是提出一种避免OCR读取引起的文字识别、文字切出、文字行提取错误给单词检索带来的不良影响的方法。另外,在使用关键词群进行的文件检索、文件分类处理中,一般使用特定关键词与其结合规则(AND与OR)进行处理。例如检索“OCR”和“检索”这两个词共同(AND)出现的文件。在现有的对文本文件的检索中,关键词的有无以1和0两个值确定,因而结合规则的适用可以简单处理。而本专利技术因与文字识别相关,关键词的有无以取0和1之间连续值的尤度来表示。因此,如果对尤度低的关键词一律适用结合规则进行文件检索,则无法实现足够的命中率,或者如果一律忽视尤度低的关键词进行文件检索,则无法检索出必要的文件。本专利技术的第二个目的是提出一种利用文字识别尤度,导出单词检索的尤度和结合规则的尤度,通过自动学习来控制文件检索精度的方法。解决技术问题的技术方案为实现上述第一个目的,本专利技术提供了一种系统,该系统将OCR和检索装置分离,采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件(OCR读取假说文件)作为OCR的输出形式,构成以该OCR读取假说文件为基础进行关键词检索的装置,从而进行必要的文件检索和文件分类。为实现上述第二个目的,本专利技术提供了这样一种机构,即在OCR读取假说文件中包含文字识别的类似度、文字结构的位置情报等信息,将被检索关键词的尤度和关键词按规则结合时的尤度作为计算情报加以利用,并依据这些尤度决定接受还是放弃文件检索结果。附图说明图1是使用OCR读取假说文件的检索与现有技术的比较概念图。图2是至输出OCR读取假说文件的流程图。图3是使用OCR读取假说文件进行检索处理的流程图。图4是被检索单词路径的检定流程图。图5是从候补文字网络进行单词提取处理的概念图。图6是候补文字网络的示意图。图7是文件检索系统的一个屏幕画面构成例。图8是表示OCR读取假说文件效果的图之一。图9是表示OCR读取假说文件效果的示意图之二。图10是文件检索系统的一个构成例。图11是文件检索系统中学习流程的概念图。图12是OCR读取假说文件的数据构成图之一。图13是OCR读取假说文件的数据构成图之二。图14是以OCR读取假说文件表示的文字列结构的概念图之一。图15是以OCR读取假说文件表示的文字列结构的概念图之二。图16是以OCR读取假说文件表示的文字列结构的概念图之三。符号说明101-输入到现有文件检索系统的纸文件102-现有文件检索系统中的OCR部分103-现有文件检索系统的OCR输出形式104-现有文件检索系统的单词检索部分105-现有文件检索系统的文件检索部分106-现有文件检索系统的文件检索结果107-输入到本专利技术文件检索系统的纸文件108-本专利技术文件检索系统的OCR部分109-本专利技术文件检索系统的OCR输出形式110-本专利技术文件检索系统的单词检索部分111-本专利技术文件检索系统的文件检索部分112-本专利技术文件检索系统的文件检索结果113-单词检索中使用的单词数据库部分114-文件检索中使用的文件检索规则数据库部分201-OCR装置中的图像输入部分202-OCR装置中的文件构造解析部分203-OCR装置中的文字行提取部分204-OCR装置中的文字结构生成部分205-OCR装置中的文字识别部分 206-OCR装置中的OCR读取假说文件输出部分207-OCR装置中输入文件图像时的流向301-文件检索装置中的OCR读取假说文件输入部分302-文件检索装置中的单词检索部分303-文件检索装置中的检索单词检定部分304-文件检索装置中的检索规则适用部分305-文件检索装置中的检索文件检定部分401-文件检索装置中的路径识别尤度计算部分402-文件检索装置中的文字配置尤度计算部分4本文档来自技高网...
【技术保护点】
由接收记载有文字的图像输入的图像输入装置、中央运算装置和外部记忆装置构成的一种OCR装置,其特征在于,其中所述中央运算装置从输入图像中提取文字行候补和文字切出候补,并对文字切出候补进行文字识别,将文字识别的结果、文字行候补以及文字切出候补组合成读取假说文件,并记忆在所述的外部记忆装置中。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:永崎健,丸川胜美,藤原茂之,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。