字符识别方法,修正方法及字符识别装置制造方法及图纸

技术编号：2936072 阅读：183 留言：0更新日期：2012-04-11 18:40

本发明专利技术用于高精度地识别书写到各种发票上不规则的低品质的字符串。通过在输入字符串和特定字符标准模式词典之间进行第１匹配处理，从输入字符串中抽出特定字符或特定字符串。其次，从特定字符词典和与其链接的知识词典中抽出属于指定类别的，并且有可能位于从输入字符串中抽出的各特定字符或特定字符串的前后的区域的候补单词组。并且，对于属于候补单词组的各候补单词，通过使用标准模式词典进行第２匹配处理，识别构成输入字符串的字符。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及识别书写到通常所见到的各种发票上的字符串，特别涉及识别以不规则的字符间隔或用不规则的书写方法书写的在相邻字符之间发生接触、分离的那种低品质的字符串的技术。读取图像数据并变换为字符编码数据的OCR(光学字符读取装置)随着其应用领域的扩大，已在各种业务中进行使用。每一种业务使用不同的发票，并且书写到发票上的字符串和书写者也是各种各样的。在先有的OCR用发票中，字符登录框是使用按逐个字符印刷的字符框，特别是在书写汉字时，是使用大的字符框。对OCR装置而言，这是为了容易逐个字符检测所书写的字符，另外，对于书写者说来，这是为了促使其在书写时所书写的字符不与相邻的字符接触。这样的发票，例如即使只书写2、3个住所或姓名，所书写的字符数也有数十个字符，结果，就必须使用大尺寸的发票，从而将增加费用。另外，对于书写者说来，也增加了必须逐个字符书写到框中的麻烦。随着OCR的应用领域扩大，已迫切需要不受字符框约束而能将汉字字符串书写到通常的发票那样小的发票中，并且可以按实用上的识别精度进行识别，并在修正不能阅读的字符时可以有效地进行修正的字符识别/修正技术。在先有的典型的字符识别方法中，是参照称为存储书写识别对象字符串的字符框的发票上的坐标位置的定义体的文件，逐个字符检测所书写的字符并将它们分离开来。并且，通过对该分离开的各字符进行识别处理，输出作为识别结果的候补字符组。分离开的字符的识别处理，例如可以按如下方式进行。首先，收集由大量的不特定的书写者按照预先规定的书写方式所书写的字符，从这些字符中抽出与识别方式相关的特征量，利用统计的方法(例如，分组方法)作成...

【技术保护点】
一种字符识别方法，用于识别构成书写到具有指定类别的书写范围内的输入字符串的字符，其特征在于：通过在上述输入字符串与第１识别词典之间进行第１匹配处理，从上述输入字符串中抽出特定字符或特定字符串；从不同类别的单词词典中抽出属于上述指定类别的并且有可能位于从上述输入字符串中抽出的各特定字符或特定字符串的前后的上述输入字符串中的区域的候补单词组；对于属于该抽出的候补单词组的各候补单词组，根据与该各候补单词有关的信息，对该各候补单词所在的上述输入字符串中的各区域，通过使用第２识别词典进行第２匹配处理，识别构成上述输入字符串的字符。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：伊崎保直，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人