OCR装置、文件检索系统制造方法及图纸

技术编号：2933186 阅读：264 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种作为对纸文件及文件图像进行文件检索的ＯＣＲ装置、文件检索系统及文件检索手段，该手段是应用文字识别技术，检索含有给定关键词的文件群的方法。本发明专利技术的发明专利技术目的是通过提供一种系统，该系统将ＯＣＲ装置和检索装置分离，采用永久性保持文字行提取、文字切出以及文字识别多重假说的文件（ＯＣＲ读取假说文件）作为ＯＣＲ的输出形式，构成以该ＯＣＲ读取假说文件为基础进行关键词检索的机能，实现必要的文件检索和文件分类。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及应用文字识别技术，从纸文件群或文件图像群中检索含有给定检索关键字的文件群，取得必要情报的文件检索与处理方法、装置以及文件检索处理程序。
技术介绍
即使是在计算机数字情报技术得以普及的现在，纸文件作为情报传递的媒体仍然应用广泛。但是，要想以某一关键词从大量文件中检索到必要的情报，或者对含有特定关键词群的文件进行检索和自动分类，对于这样的要求，纸文件与数字数据相比其处理明显困难得多。为解决这一问题，人们提出了各种各样的方法以进行纸文件的检索和自动处理。从纸文件或文件图像中检索必要关键词的手段有两种，即每次检索时以OCR(光学读取装置)对纸文件进行识别、检索的在线处理和先以OCR读取然后永久性保持其读取结果再进行检索的离线处理。例如，邮件区分机等装置可以说是属于在线处理。在这一在线处理过程中，因为指定了想要检索的关键词，根据关键词中包含的文字的特性(全角、半角、汉字、英文数字等等)改变文字切出的参数，或者在文字识别时加以文字种类的限定等，通过这样的处理就能提高检索精度。但是，因为每次检索时都必须进行图像解析和文字识别，因而在检索重复进行的情况下，计算时间方面不具备实用性。本专利技术提出的是基于离线处理的方法。对纸文件进行离线关键词检索的最基本的方法，是利用OCR将纸文件转换成文本文件，然后对文本文件进行检索。但是，一般情况下以OCR转换的文本文件中有错误，因而简单的文本检索就会产生无法处理的情况。当然，也可以人工修正OCR转换的文本文件，并针对修正结果进行检索。但是，这种人工介入的修正，在处理速度以及成本方面很难说具有实用性。作为提高OCR读...

【技术保护点】
由接收记载有文字的图像输入的图像输入装置、中央运算装置和外部记忆装置构成的一种ＯＣＲ装置，其特征在于，其中所述中央运算装置从输入图像中提取文字行候补和文字切出候补，并对文字切出候补进行文字识别，将文字识别的结果、文字行候补以及文字切出候补组合成读取假说文件，并记忆在所述的外部记忆装置中。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：永崎健，丸川胜美，藤原茂之，
申请(专利权)人：株式会社日立制作所，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人