文档图像识别方法和设备技术

技术编号：10184569 阅读：162 留言：0更新日期：2014-07-03 15:05

本发明专利技术公开了文档图像识别方法和设备。用于识别具有混合的主要语言和次要语言的字母的文档图像的方法包括分割步骤，用于将文档图像分割成至少一个长字符串；提取步骤，用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元；以及识别步骤，用于基于各识别的字符串单元来识别该文档图像。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了文档图像识别方法和设备。用于识别具有混合的主要语言和次要语言的字母的文档图像的方法包括分割步骤，用于将文档图像分割成至少一个长字符串；提取步骤，用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊字符提取字符串单元；以及识别步骤，用于基于各识别的字符串单元来识别该文档图像。【专利说明】文档图像识别方法和设备
本专利技术涉及用于识别文档图像的方法和设备。特别地，本专利技术涉及用于通过辨识(distinguish)从文档图像分割出的长字符串中的各部分的语言来识别文档图像的方法和设备。
技术介绍
在光学字符识别(OCR)领域中，大多数OCR系统常常需要应对一些多语言混合的文档图像。已经开发出了许多用于这样的具有多种语言的混合的文档的辨别(distinct ion)或者分类(categorization )的技术。一些技术在对于包含不同语言的文档进行OCR之前实现对该文档的分类。例如，文献I和2中公开了用于区分这种类型的文档的方法，该文献I和2通过引用将全文并入此。在此方法中，已经开发出了如下这样的系统，即该系统可识别二十三种基于拉丁语的语言(英语、法语等)以及三种基于汉语的语言(汉语、日语和韩语)。首先，该系统使用向上凹度(upward concavity)的分析来区分基于拉丁语的脚本与基于汉语的脚本。然后，该系统通过分析字符单元的光学密度来辨识基于汉语的语言。对于基于拉丁语的语言，系统通过分析语言的单词形状标志来对它们进行辨识。文献3和4公开了其它的分类方法，文献3和4通过引用将全文并入此。在此方法中，已经开发了如...

【技术保护点】
一种具有混合的主要语言的和次要语言的字母的文档图像的识别方法，包括：分割步骤，用于将文档图像分割成至少一个长字符串；提取步骤，用于从该至少一个长字符串中的每一个中根据该长字符串中包含的特殊符号提取字符串单元；以及识别步骤，用于基于各提取的字符串单元来识别该文档图像。

【技术特征摘要】

【专利技术属性】
技术研发人员：李建杰，李献，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人