页式联想汉字识别系统技术方案

技术编号：2936934 阅读：276 留言：0更新日期：2012-04-11 18:40

本发明专利技术属于采用光学方法的汉字识别技术领域是一种页式联想汉字识别系统。该系统判识汉字的应用软件以“双信源模型字典”为依据编制而成，并与特定的“计算机系统软件”组成本发明专利技术的软件Ｐ份，其硬件设备有配接汉卡的计算机主机和扫描仪、显示器、打印机等。该系统以实际文本中相邻汉字中的概率约束关系作为汉字的联想识别并辅之以汉字的特征判识。具有汉字识别率高、识别速度快、软件容量小和易于引入现有汉字识别系统等显著技术进步。（*该技术在2010年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于采用光学方法的汉字识别输入
，是一种页式联想汉字识别系统。目前，国内外诸多的汉字识别系统，无论是对单体、两种以上印刷体混排或联机手写汉字等文本进行识别，均着重于将文本中的字词、词和短语做为字符串图形，依据其笔段、笔划、字根等字形特征对各个汉字做孤立的配比、判识，而较少见利用文本中相邻汉字的相关性为主的汉字识别系统。如清华大学的“印刷汉字识别装置”(CN85100085A)，辽宁王雅延的“印刷汉字识别方法”(CN85105586A)和各种类型的“图文扫描仪”等。由于这些识别系统的汉字文本信源为无记忆的“单信原模型结构”，故其相应的“识别字典”的结构适应性差，容量大，这就限制了各识别系统在实际应用中的判识性能，致使其识别程序内存容量较大，识别率难以提高，识别速度一般仅在5字/秒以下。本专利技术的目的在于提供一种以“双信源识别字典”结构为基础的联想汉字识别系统，该系统由于充分利用了实际文本中汉字间的概率约束关系作为汉字联想判识，使其具有机动灵活、容量小等显著特点，并易于引入现有的汉字识别系统，以提高汉字识别率、识别速度和减小应用软件的容量。页式联想汉字识别系统的整体结构是“以双信源模字典”为依据编制判识汉字的应用软件，并与特定的“计算机系统软件”组成该系统的软件部分;其硬件设备为配接有汉卡的计算机主机和扫描仪、显示器、打印机等。该系统的应用软件结构是“双信源模型字典”以“联想识别树”、“特征识别树”为主构成，其中的“联想识别树”是对应单纯“MARKOV信源模型”的树状数据结构，即对文本中某汉字的判识只依赖于其前或其后的一个汉字，分为“前...

【技术保护点】
页式联想汉字识别系统由计算机、扫描仪等硬件设备和相应的软件构成，其特征在于利用实际文本中相邻汉字中的相关性，配合汉字的结构特征，以“双信源模型字典”为依据编制判识汉字的应用软件，并与特定的“计算机系统软件”组成该系统的软件部分；其硬件设备为配接有汉卡的计算机主机和扫描仪、显示器、打印机等。

【技术特征摘要】

【专利技术属性】
技术研发人员：郭宝兰，张彩录，卫颖丽，张宇桐，
申请(专利权)人：河北大学，
类型：发明
国别省市：13[中国|河北]

全部详细技术资料下载我是这个专利的主人