利用温度计代码快速计算模式识别曼哈顿距离制造技术

技术编号:2936181 阅读:295 留言:0更新日期:2012-04-11 18:40
在模式匹配中,通常使用“曼哈顿距离”函数度量两个模式差异程度。对于具有短分量的向量,快速曼哈顿距离函数计算首先把输入特征向量和已知特征向量转换成温度计代码形式。然后通过对这两个温度计代码向量进行“异或”运算来计算它们之间的差。然后对“异或”结果中为“1”的比特计数从而计算出曼哈顿距离。这两个温度计代码向量能以比特分割形式存储以加速平行计算。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】一般地说,本专利技术是关于模式识别方法和装置,更具体地说,是关于曼哈顿(Manhattan)距离方法。在模式识别应用中,经常需要计算一个度量两个模式差异程度的“距离函数”。例如,可能通过计算未知模式到一“字典”中的每个已知模式(或称“模板”)的距离并通过选择距离最近的模板来对这一未知模式进行分类。每个模板是一已知“模式类型”的代表。所选模板的类型便成为模式匹配操作的结果。实际的模式识别算法会比这复杂得多,但对已知模式和未知模式之间距离函数的计算消耗其执行时间的主要部分,这一点仍是共同的。再有,已知模式字典是存储器消耗中的主要部分,这一点也是共同的。因此,以快速的和允许模式字典在存储器中紧凑存储的方式来计算距离函数,常常是重要的。通常,每个模式是包含大量分量的向量,这些分量被称作“特征”或“元素”。通常使用的一种距离函数是“绝对差之和”,也称作“曼哈顿距离”。它是通过对两个模式向量的相应元素之间的差值绝对值求和计算出来的。因此,在一已知向量K和一输入向量I之间的距离是Σi=1n|K-I|]]>在不同的应用中,特征的大小是不同的,在一些应用中能特别短。在某些应用中,需要处理由2比特(bit)无符号特征组成的长向量的有效解决方法。先有技术中对短数字进行算术计算的最通用方法是把每个数扩展到目标机器的运算器(ALU)的宽度,并一次一个地处理扩展了的数(或者,在单指令多数据处理器情况下每个处理元素(或称PE)处理一个数)。例如,对于16比特运算器(ALU)中的处理,每个2比特无符号特征会在前面补上14个零以形成一个16比特无符号整数。这种先有技术方法有两个弱点。第一,它使得对计算机运算电路、寄存器和数据通道的使用效率很低,因为高阶比特(在我们的情况中是16比特中的14比特)被浪费了。第二,在用于处理的解包数据格式与有效利用存储器所需的打包数据格式之间存在根本的不匹配。如果以解包形式存储已知模式的字典(例如对每个2比特特征或许使用8比特或16比特),那么处理是直截了当的(因为不需要解包),但存储器消耗比实际需要大好多倍。在嵌入式系统中,这种额外的存储器会昂贵到不可容忍的程度。另一方面,如果更紧凑地存储字典,那么由于在每次求差值绝对值和求累加和的操作之前要进行数据解包操作,从而会增加执行时间。这另一种作法加剧了对处理硬件的业已存在的低效率使用,可能造成不可接受的低速性能。从下文中结合附图所作的详细描述中能更清楚地理解本专利技术的特点和优点。在这些图件中,相同数字代表相同或对应的部件,其中附图说明图1以流程图形式描述根据本专利技术处理模式的方法;图2绘出英文词“he(他)”的汉字;图3给出图2所示字符的象素阵列表示;图4以流程图形式描述图1中所示一个步骤的第一实施例;图5给出图4所示步骤的图形表示;图6以图形形式给出一例,用于解释本专利技术;图7以图形形式给出图4所示第一实施例使用图6所示数据进行的操作;图8以流程图形式描述图1中所示一个步骤的第二实施例;图9以图形形式给出图8所示第二实施例使用图6所示数据进行的操作;图10是方框图,显示出用于实现本专利技术的一个通用计算机。图1以流程图形式描述了根据本专利技术处理模式的方法100。所披露的专利技术特别适于处理以大量元素表示的模式,而每一单个元素由少数比特表示。在这些应用中,每个元素可能由2或3比特的量表示。所披露的专利技术把各元素方便地拼合成处理系统允许的任何数据长度的向量。结果,简单的处理器表现出并行处理若干元素的能力。再有,可以把已知模式向量类似地拼合到存储器中,在使用之前只需最少量的处理或无需处理。所披露的方法是快速的,易于使其适合于特定数据处理器的数据通路大小,且允许已知向量有效地存储到小存储器中。继续参考图1,方法100在步骤102开始,在这一步骤中获取一个要与已知模式库进行匹配的模式。这个模式可以是话筒、视频摄像机、光学扫描仪、记录笔等的输出。接下来,方法100在步骤104提取表征所获取的模式的特征。步骤104的输出是一个向量,所包含的元素表征所提取的特征,即输入向量。通常,模式的具体类型(汉字、英文字等)和在其中进行模式取样的具体介质(光学扫描仪、话筒等)决定了使用何种判据来提取有特点的特征。下文中结合图2和图3描述汉字文本特征提取算法的一例。然后,方法100把输入向量与取自己知模式字典的一个或多个已知向量进行比较。方法100对二者之间的“距离”或者说不相似性赋予一个值。曼哈顿距离函数是两向量之间不相似性的一个有用的度量。最后,方法100在步骤108选择出哪一个模式与输入向量最相似。图2绘出英文词“he(他)”的汉字200。从模式识别的难度和从使用汉语的人数这两方面考虑,汉语是一个特别重要的模式识别问题。如图2所示,汉字由较大量的笔划构成,而每个笔划又有较大的空间自由度数。图3给出图2所示字符的象素阵列表示。这里,汉字“他”的光学图象已转换成12×12的二进制值矩阵。这12×12矩阵中的每个位置代表图象中的对应的空间位置或象素。在一个特定矩阵位置的一个“1”表明赋予该矩阵位置的特定空间点为暗色象素(即存在构成该字符的墨迹)。反之,在特定矩阵位置存在一个“零”,表明赋予该矩阵位置的特定空间点为亮象素(即没有墨迹)。经验表明,选取从图象场的边缘若干点处到预先设定边界内第一个“1”的距离,这已确定为一种有效的特征提取技术。为了说明特征提取步骤104(图1所示)的操作,表达式300在2点处从左边缘向右在4象素范围内取其距离,在2点处从右边缘向左在4象素范围内取其距离,在2点处从顶边缘向下在4象素范围内取其距离,在2点处从底边缘向上在4象素范围内取其距离。所描述的方法假定墨迹决不会落在边缘上(即第一象素);如果确定有墨迹落在边缘上,它将被忽略。再有,如果在4象素边界范围内没有检测到墨迹,则所记录的距离为零。这种方法产生一个模式向量,以8个2比特特征或元素来表征。在所描述的例子中,输入向量(x1,x2,x3,x4,y1,y2,y3,y4)有值(3,1,0,2,3,2,0,1)。本专利技术的一个实施例是基于使用“温度计代码”。温度计代码(thermometer code)的基本思想不是新的。在实践中,每当我们读到一个数字条(bar)的图形显示,我们便遵循使用温度计代码。所显示的段(segment)对应于被显示量的温度计代码表示的各比特。例如,一个2比特无符号二进制整数按如下关系对应于一个3比特温度计代码十进制二进制温度计代码0 00 0001 01 0012 10 0113 11 111类似地,一个3比特二进制整数按如下关系对应于一个7比特温度计代码十进制二进制 温度计代码0 00000000001 00100000012 01000000113 01100001114 10000011115 10100111116 11001111117 1111111111一般地说,一个n比特温度计代码代表的无符号整数x包含(n-x)个零后跟x个1。利用偏移温度计代码来处理负数或以非零开始的区间范围上的数,这也是可能的。例如,在区间中的整数可以由下列偏移温度计代码表示十进制 温度计-2 00000000-1 000000010 000000本文档来自技高网...

【技术保护点】
计算一输入特征向量和一已知特征向量之间的曼哈顿距离的一种方法,其特征在于:A)把输入特征向量转换成一个输入温度计代码向量;B)把已知特征向量转换成一个已知温度计代码向量;C)通过对输入温度计代码向量和已知温度计代码向量进行“异或 ”运算来计算一个差值向量;以及D)对差值向量中的比特数进行计数,以计算出曼哈顿距离。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:L罗迪戈克黄利维音译李德雷音译
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1