本发明专利技术用于高精度地识别书写到各种发票上不规则的低品质的字符串。通过在输入字符串和特定字符标准模式词典之间进行第1匹配处理,从输入字符串中抽出特定字符或特定字符串。其次,从特定字符词典和与其链接的知识词典中抽出属于指定类别的,并且有可能位于从输入字符串中抽出的各特定字符或特定字符串的前后的区域的候补单词组。并且,对于属于候补单词组的各候补单词,通过使用标准模式词典进行第2匹配处理,识别构成输入字符串的字符。(*该技术在2018年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及识别书写到通常所见到的各种发票上的字符串,特别涉及识别以不规则的字符间隔或用不规则的书写方法书写的在相邻字符之间发生接触、分离的那种低品质的字符串的技术。读取图像数据并变换为字符编码数据的OCR(光学字符读取装置)随着其应用领域的扩大,已在各种业务中进行使用。每一种业务使用不同的发票,并且书写到发票上的字符串和书写者也是各种各样的。在先有的OCR用发票中,字符登录框是使用按逐个字符印刷的字符框,特别是在书写汉字时,是使用大的字符框。对OCR装置而言,这是为了容易逐个字符检测所书写的字符,另外,对于书写者说来,这是为了促使其在书写时所书写的字符不与相邻的字符接触。这样的发票,例如即使只书写2、3个住所或姓名,所书写的字符数也有数十个字符,结果,就必须使用大尺寸的发票,从而将增加费用。另外,对于书写者说来,也增加了必须逐个字符书写到框中的麻烦。随着OCR的应用领域扩大,已迫切需要不受字符框约束而能将汉字字符串书写到通常的发票那样小的发票中,并且可以按实用上的识别精度进行识别,并在修正不能阅读的字符时可以有效地进行修正的字符识别/修正技术。在先有的典型的字符识别方法中,是参照称为存储书写识别对象字符串的字符框的发票上的坐标位置的定义体的文件,逐个字符检测所书写的字符并将它们分离开来。并且,通过对该分离开的各字符进行识别处理,输出作为识别结果的候补字符组。分离开的字符的识别处理,例如可以按如下方式进行。首先,收集由大量的不特定的书写者按照预先规定的书写方式所书写的字符,从这些字符中抽出与识别方式相关的特征量,利用统计的方法(例如,分组方法)作成标准模式。并且,根据作为目的的每一种字种的标准模式作成标准模式词典。标准模式,例如可以作为通过将所收集的各字符模式平均而得到的平均模式而作成。更具体地说,就是利用通过运算与所收集的各字符对应的特征量的平均而得到的平均特征量来表现该平均模式。在手写字符的识别处理中,由于手写者不同而发生大的字形变形,所以,对各字种作成多个标准模式。通常,1个标准模式称为1个模板,对上述各字种根据多个标准模式作成的词典称为多个模板词典。字符识别处理,使用上述标准模式词典或多个模板词典进行。具体而言,就是从根据输入发票分离出来的1个字符抽出特征量,在该特征量与构成标准模式词典(或多个模板词典)的各模板(标准模式)的特征量之间计算类似度或距离(欧几里得距离、马哈赖诺毕斯距离等)。并且,按类似度大的顺序或距离小的顺序,将指定顺序位次(例如,8位)之前的各模板所属的各字种类别作为候补字符组而输出。这里,所识别的字符是表示住所或姓名的字符时,通常对上述候补字符组进行使用住所单词、姓名单词的知识处理。更具体地说,首先就是各书写位置的候补字符组通过按整个书写位置进行组合然后输出候补字符组。其次,对构成该候补字符组的各候补字符串比较在该候补字符串中是否存在知识处理对象的住所词典或姓名词典内的各单词字符串。并且,按照该比较结果,例如按照构成候补字符串的各候补字符的顺序位次等,对该候补字符串打分。在对所有的候补字符串进行该处理之后,将得分最高得候补字符串作为知识处理结果而输出。作为关于这种知识处理的先有技术,例如已在日本国特许公开公报特开昭61-107486号中所公开了,这是大家所熟知的。这里,识别如像向通常的发票上书写那样用自由间距书写的住所、姓名那样的汉字字符串时,通常会发生很多相邻的字符之间相互接触的现象,另外,相反,也会存在对汉字分离为偏、旁那样而书写的字符。因此,在逐个字符检测书写字符并分离出来进行识别的先有的字符识别方法中,难于判断哪个范围是1个字符的范围,实现达到实用上的识别精度是困难的。此外,如果不能正确地识别各字符,则有时就连书写的是何种字符都不能判断,在以确定构成单词的字符数为前提的先有的知识处理中,谋求提高识别精度是有限度的。另外,特别是在住所地名等的识别处理中,例如在不能利用知识处理识别高位级的单词(例如,东京都、大阪府等)时,通常在该阶段低位级的单词也不能进行知识处理,所以,为了修正住所地名,就必须从第1个字符开始顺序修正所有的字符串。作为用于识别上述那样的自由间距的字符串的第1先有技术,已在日本国特许公报特公平8-23875号“单词读取方式”中所公开,这是大家已知的。在该第1先有技术中,作为识别结果的候补字符串与单词词典通过DP匹配等进行对照,选择一致的字符多的单词,再次分离出不一致的部分,对该分离出的字符串进行进一步识别。作为用于识别自由间距的字符串的第2先有技术,已在日本国特许公开公报特开昭63-136291号“单词读取方式”中公开了,这是大家已知的。在该第2先有技术中,使用作为标准模式而具有表示字符的偏、旁的各部分的部分模式的标准模式词典进行识别处理,根据候补字符串的各字符的偏、旁生成字符串,进行它们与单词词典的匹配处理。作为用于识别自由间距的字符串的第3先有技术,已在日本国特许公开公报特开平8-171614号“字符串读取装置”中所公开,这是大家已知的。在该第3先有技术中,在候补字符串中不包含正确字符而发生读取转移时或者由于存在与正确字符竞争的字符候补而发生多个读取候补时等,就检测预想字符串的存在可能性。但是,研究了对我们日常所书写的字符串即相邻字符间的接触频繁地发生、字符宽度也随各字符而变化很大、很多东倒西歪的低品质的字符串的识别处理时,上述第1~第3先有技术存在以下问题。首先,在第1先有技术中,优先处理候补字符串中的哪个字符不一定,由于对等地处理候补字符串中的所有的字符,所以,有可能根据最初的字符分离位置只将完全不适当的单词选择为候补字符了。其次,在第2先有技术中,在对相邻字符相互接触的区域的处理中存在问题。此外,在第3先有技术中,虽然描述了几个检测手段的实现方法,但是,不论哪个方法都使用字符候补的组合,它们的检测性能与最初的字符的分离结果关系很大。本专利技术的目的在于通过着眼于特定的字符而高精度地识别低品质的字符串。本专利技术以识别构成书写到具有指定类别的书写范围的输入字符串的字符的字符识别/修正方法、和与其具有同等功能的字符识别装置或计算机可以读取的记录媒体为前提。在本专利技术中,首先通过在输入字符串和第1识别词典(特定字符标准模式词典107)之间进行第1匹配处理,从输入字符串中抽出特定字符或特定字符串。更具体地说,就是在第1识别词典中存储与特定字符或特定字符串对应的标准模式,通过在输入字符串的模式和第1识别词典内的各标准模式之间进行第1匹配处理,从输入字符串中抽出特定字符或特定字符串。上述特定字符或特定字符串是例如在指定类别中出现的频度高的或识别精度高的字符或字符串。其次,从不同类别单词词典(特定字符词典110、知识词典111)中抽出有可能属于指定类别(例如,住所字符串)并且位于从输入字符串中抽出的各特定字符或特定字符串的前后的输入字符串中的区域的候补单词组。并且,对于属于所抽出的候补单词组的各候补单词,通过根据与该各候补单词有关的信息对该各候补单词所位于的输入字符串中的各区域使用第2识别词典(标准模式词典113)进行第2匹配处理,识别构成输入字符串的字符。更具体地说,就是在第2识别词典中存储与和属于候补单词组的候补单词关联的字符或字符串对应的标本文档来自技高网...
【技术保护点】
一种字符识别方法,用于识别构成书写到具有指定类别的书写范围内的输入字符串的字符,其特征在于: 通过在上述输入字符串与第1识别词典之间进行第1匹配处理,从上述输入字符串中抽出特定字符或特定字符串; 从不同类别的单词词典中抽出属于上述指定类别的并且有可能位于从上述输入字符串中抽出的各特定字符或特定字符串的前后的上述输入字符串中的区域的候补单词组; 对于属于该抽出的候补单词组的各候补单词组,根据与该各候补单词有关的信息,对该各候补单词所在的上述输入字符串中的各区域,通过使用第2识别词典进行第2匹配处理,识别构成上述输入字符串的字符。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:伊崎保直,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。