文字识别装置制造方法及图纸

技术编号：2935560 阅读：164 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供可以从文字识别难的文字图像中正确并且高速地识别文字的文字识别装置。包括：文字区域分离部分，推定被输入的文字图像的文字宽度，分离出与该文字宽度相当的长度的文字区域；特征抽出部分，抽出被分离的文字区域内的文字图像的特征；标准图案词典，由单个文字标准图案词典和多文字标准图案词典的双方组成；词典核对部分，将用特征抽出部分抽出的文字图案的特征，和词典中的单个文字以及文字列的特征对照，抽出文字图案表示的文字或者文字列的候补。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及将被输入的文字图像作为文字进行识别的文字识别装置。以往，在将被输入的文字图像作为文字进行识别的文字识别装置的领域中，例如OCR(光学式文字读取装置)或者组合图像扫描仪和OCR软件的文字识别装置等在应用领域广泛使用。在以往的OCR用票单中，使用印刷有每单个文字的文字填写框的票单，在使用汉字的系统中文字填写框的大小也采用容易填入汉字那样大小的文字填写框。由此具有对于OCR来说容易正确地识别被填入的文字，对于填写者来说促使其在填写文字时不要和相邻的文字接触的效果。但是，随着OCR利用领域的进一步扩展，对于用一般所使用的通常的票单那样的小的票单不受文字框限制地被填入的文字列，即，在通常的传票等上以不规则的文字间隔、不规则的填入方法填入的相邻文字之间相互接触那样的低品质的手写文字列，也要求有可以以实用的识别精度识别的文字识别装置。另外，在印刷的文字列的情况下，要使用如OCR-B或者多字体等那样只用多个特定的字体精心印刷的OCR票单，但对于被印刷的文字列，也希望一种文字识别装置，其可以从用不特定的印字装置以多样的文字间距印刷的，有多种变形的文字列，例如用文字间距窄的印字装置或者用比例间距印刷的文字列，或者半角文字和全角文字混合存在的文字列等中以实用的识别精度分离文字列。在以往的文字识别装置中的文字分离方式，特别在从自由间距的文字列，即未设定文字框的字段中分离出文字的文字分离方式中，采用对于孤立的黑象素的连接区域求出文字列的高度信息，从其高度信息中求出文字的间距信息，用该值合并或者分离相邻的文字，从而分离出应该作为识别对象的单个文字的方式。或者采用将...

【技术保护点】
一种文字识别装置，其特征在于：包括以下部分，文字区域分离部分，从被输入的文字图像中推定文字宽度，从该文字图像中分离出与该文字宽度相当的长度的文字区域；特征抽出部分，抽出被上述文字区域分离部分分离出的文字区域内的文字图像的特征；标准图案词典，由记录了标准文字单个文字的各种特征的单个文字标准图像词典和记录了以规定数量排列标准文字形成的文字列的各自的特征的多文字标准图像词典两部分组成；词典核对部分，将用上述特征抽出部分抽出的文字区域内的文字图像的特征，和构成上述标准图像词典的记录在上述单个文字标准图像词典以及上述多文字标准图像词典中的单个文字以及文字列的各自特征对照，抽出该文字区域内的文字图案表示的文字或者文字列的候补。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：伊崎保直，镰田英夫，坂根俊司，井出克美，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人