文档图像识别方法和设备技术

技术编号:10184569 阅读:146 留言:0更新日期:2014-07-03 15:05
本发明专利技术公开了文档图像识别方法和设备。用于识别具有混合的主要语言和次要语言的字母的文档图像的方法包括分割步骤,用于将文档图像分割成至少一个长字符串;提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元;以及识别步骤,用于基于各识别的字符串单元来识别该文档图像。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了文档图像识别方法和设备。用于识别具有混合的主要语言和次要语言的字母的文档图像的方法包括分割步骤,用于将文档图像分割成至少一个长字符串;提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元;以及识别步骤,用于基于各识别的字符串单元来识别该文档图像。【专利说明】文档图像识别方法和设备
本专利技术涉及用于识别文档图像的方法和设备。特别地,本专利技术涉及用于通过辨识(distinguish)从文档图像分割出的长字符串中的各部分的语言来识别文档图像的方法和设备。
技术介绍
在光学字符识别(OCR)领域中,大多数OCR系统常常需要应对一些多语言混合的文档图像。已经开发出了许多用于这样的具有多种语言的混合的文档的辨别(distinct ion)或者分类(categorization )的技术。一些技术在对于包含不同语言的文档进行OCR之前实现对该文档的分类。例如,文献I和2中公开了用于区分这种类型的文档的方法,该文献I和2通过引用将全文并入此。在此方法中,已经开发出了如下这样的系统,即该系统可识别二十三种基于拉丁语的语言(英语、法语等)以及三种基于汉语的语言(汉语、日语和韩语)。首先,该系统使用向上凹度(upward concavity)的分析来区分基于拉丁语的脚本与基于汉语的脚本。然后,该系统通过分析字符单元的光学密度来辨识基于汉语的语言。对于基于拉丁语的语言,系统通过分析语言的单词形状标志来对它们进行辨识。文献3和4公开了其它的分类方法,文献3和4通过引用将全文并入此。在此方法中,已经开发了如下系统,该系统可识别阿拉伯语、表意字和拉丁语脚本。系统通过使用各种属性(行的高度分布、字符密度和水平投影)来归类(classify)出这三种主要的脚本(阿拉伯语、表意字和拉丁语脚本)。这些方法的缺陷在于它们不能区分包含具有相同或相似形状的字符(character)的语言,例如基于汉语的语言中的简体中文和繁体中文;俄语(希腊语)和拉丁语等。将以具有混合的俄语(希腊语)/拉丁语字母的文档图像为例来描述出现不正确的结果的原因,并且该表述“混合的俄语(希腊语)/拉丁语字母”指的是混合的俄语和拉丁语字母或者混合的希腊语和拉丁语字母。出现不正确的结果的原因在于为了识别具有混合的俄语(希腊语)/拉丁语字母的文档图像中的字符,OCR系统需要基于俄语(希腊语)字符集和拉丁语字符集两者来实现识别。拉丁语的字符集由两部分构成:ASCII字符集和扩展字符集。而且,对于拉丁语,基本上,它们的ASCII字符集部分中定义的字符全部与扩展字符集部分中定义的字符一起被用于拉丁语单词中。对于俄语和希腊语字符集,ASCII字符集中定义的字符没有被用于俄语(希腊语)单词中。在俄语(希腊语)字符集中,存在许多具有与拉丁语字母中的字符相似的形状、但是具有不同的代码的字符。例如,其代码在IS0-8859-7(俄语字符集)中定义为OxBO的俄语字符的形状与在IS0-8859中定义为0x41的拉丁字符‘A’的形状相同。OCR系统不能基于它们的形状特征区分俄语(希腊语)和拉丁语字母中定义的这些相似的字符。因此,这些相似字符的识别结果常常是不正确的。为了应对包括具有相同或相似形状和不同代码的字符的这类文档图像,中国专利申请N0.200810108571.1中公开了基于OCR结果的分类方法,该中国专利申请通过引用将全文并入此。该方法用于区分简体中文和繁体中文。首先,通过基于大量的已知语言文档的训练处理来生成简体中文和繁体中文两者中的识别置信度范围。然后,通过简体中文OCR和繁体中文OCR分别识别未知语言文档。基于该识别置信度范围,选择简体中文或者繁体中文识别结果中的特殊字符。该方法通过对这些特殊字符的在简体中文和繁体中文两者中的平均识别置信度进行比较,来确定文档的语言。该方法的缺陷在于其执行了整个文档的语言的辨别,但是不能区分文档的句子中的不同语言的单词。图1A示出了与此情况类似的示例性句子,其包括许多具有混合的不同语言的单词。在该句子中根据不同语言的特殊字符确定该句子的语言可能是不可靠的。通过引用而将全文并入此的文献5中公开的方法通过计算一个单词中的各字符的候选的分值以用于确定是否由其它语言字符进行替换来实现混合字母文档中的语言确定。为了替换类似的字符,该方法生成拉丁一西里尔(西里尔一拉丁)变换表。此方法的缺陷在于需要字符的各候选的三重频率(trigam frequency)和Levenstein距离。因此,该方法的过程费时并且具有巨大的开销。此外,这些数据的生成依赖于可能是互联网的大的子集的大的文档。因此,文献5中公开的方法不能快速且高效地准确识别混合字母文档图像。美国专利3988715中公开了用于也基于OCR识别结果对包括具有相同或者相似形状的字符的不同语言进行分类的另一种方法,该美国专利通过引用将全文并入此。此专利提出了一种用于应对混合有多种语言和数字的文档的方法。首先,一种字符识别引擎识别字符并且对于每个字符输出η个通道结果,其中每个通道对应于一种语言或数字。对于一个字符串,此方法计算第i个通道识别结果的组合条件概率(jointed conditionprobability)的乘积。通过比较字符串的η个通道中的组合条件概率的乘积,该方法辨识整个字符串的语言或数据类型,其中组合条件概率指的是在第i个通道中输出结果正确的条件下其它η -1个通道中的识别结果的组合概率。该方法没有使用结果的具有更有用的信息的识别置信度;该方法假定在一个字符串中,仅存在一种语言。因此,如果由于单词分割错误而使得一个字符串包括不同语言部分,则该方法的辨别结果将是不可靠的,如图1B所示。因此,如果一个长字符串包括两种或更多种语言的部分时,现有技术将不能准确地确定整个单词的语言。现有技术中的用于区分多种语言的技术没有公开任何应对这种类型的字符串的步骤或设备。也就是说,现有技术不能可靠地和准确地识别包括不同语言部分的字符串。由于不同字母表中定义的相似字符总是具有相同或相似的形状,现有技术没有公开任何基于该相似字符区分多种语言的步骤或设备。现有技术没有公开任何应对全部由相似字符构成的单词的步骤或设备。引用文献列表.P.Sibun and A.L.Spitz.Language Determination:Natural LanguageProcessing from Scanned Document Images.1n Proceeding of the Fourth Conferenceon Applied Natural Language Processing.Pp.423-433, Las Vegas,Aprill995..L.Spitz.Determination of the Script and Language Content ofDocument Images.1EEE Transaction on Pattern Analysis and Machine Intelligence,Voll9, n0.3,pp.235-245,1997..Y.Suen,S.Bergler,N.Nobile, B.Waked, 本文档来自技高网...

【技术保护点】
一种具有混合的主要语言的和次要语言的字母的文档图像的识别方法,包括:分割步骤,用于将文档图像分割成至少一个长字符串;提取步骤,用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊符号提取字符串单元;以及识别步骤,用于基于各提取的字符串单元来识别该文档图像。

【技术特征摘要】

【专利技术属性】
技术研发人员:李建杰李献
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1