信息处理方法和信息处理设备技术

技术编号：2890237 阅读：216 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种分类生成方法，它恰当地反映了模式的宏观结构特征，并充分反映了类别之间的竞争关系。当一个输入模式由笔划形成时，一个训练笔划被分为多个段，并对分段的笔划进行向量量化。在分段的量化笔划中，相邻的笔划组被合成，分别生成上层笔划向量。在分层的笔划向量系列中，从上层笔划向量中选出一个使预定平均信息量函数达到最大值的向量，并向下层笔划向量组展开。结果，得到了一个分类树。（*该技术在2017年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模式识别，如字符和语音模式，尤其是一种为字符、语音等的模式识别提供数据的技术。传统上，为了对构成一种模式的手写字符进行识别，一个步进过程使用分类树对模式进行分类。由于使用分类树的传统识别方法中，为了准备节点，注意力只集中在各个节点的特征数上，不能确定模式更广泛的方面。为了生成一个识别带有大量特征的模式的分类树，必须采用一种方法，在各个节点上选择一个特征轴，因为计算是需要时间的。另外，有一种传统方法，使用一个N元语法表，用于句子识别，根据它，一个有限自动机被用作一种构成句子的语言模型，基于这种模型，计算出字符行出现的前置可能性。换句话说，根据这种方法，一个步骤是从大规模语句数据库中，计算关于构成句子的元素行连续的可能性。然而，对于包含几千种字符类别的语言如日语或中文来说，即使是构造一个三元语法表(N＝3)，也需要大量的语句数据。如果一个表是用少量的语句数据生成的，可靠转换可能性和不可靠转换可能性会在表中共存，产生缺陷。构造分类树的传统方法是通过包含模式逐步退化的预处理来进行的。根据这种方法，对模式的宏观到微观形式，能够构造一个平衡很好的分类树。结果，可以产生一种尽可能接近人类识别能力的识别功能。但是，由于这种方法用多种训练模式来吸收模式修正，所以就需要有庞大数量的训练模式。这种情况将结合图32来解释。假设根据传统方法，为从“0”到“9”的数字位图识别产生一个分类树。一个用上述方法建立的分类树形状如图32中所示。三种类别的训练模式，“4”、“5”和“6”，在图32中从右边起第五个分支。换句话，广义地讲，在图32右起第五分支上，只有“4”、“...

【技术保护点】
一种生成分类树的信息处理方法，分类树是字符识别使用的识别字典，包括：一个分割步骤，将预定的训练笔划分为多个段；一个向量量化步骤，对所述分割步骤得到的所述段中的所述笔划进行向量量化；分层笔划向量生成步骤，合成所述分割步骤得到的分为所述段的相邻笔划，获得笔划组生成上层笔划向量，并产生一个分层的向量系列；及一个分类树生成步骤，在所述分层笔划向量生成步骤得到的所述分层笔划向量系列中，从上层笔划向量中选择一个使预定平均信息量函数达到最大值的笔划向量，并展开所述笔划向量，产生低层笔划向量，生成一个分类树。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：吉井裕人，新井常一，高须英司，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人