本发明专利技术提供一种表格内容自动录入方法和装置,该方法包括:a)形成内容待录入表格的扫描图像,并确定其所对应的空白表格扫描图像;b)求得该两个扫描图像的差值图像,并在该差值图像中标定表格条目留白区域的原始位置;c)计算差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,并通过差值图像中的表格条目留白区域的平移和转动来确定所述像素值之和最小时表格条目留白区域所在的匹配位置;d)对处于匹配位置处的每个表格条目留白区域中的表格内容进行识别,并将识别结果存储起来。该方法可克服表格内容自动录入过程中表格背景以及表格内容错位对表格内容识别的干扰和影响,从而提高表格内容自动录入的准确性。
【技术实现步骤摘要】
【专利摘要】本专利技术提供一种表格内容自动录入方法和装置,该方法包括:a)形成内容待录入表格的扫描图像,并确定其所对应的空白表格扫描图像;b)求得该两个扫描图像的差值图像,并在该差值图像中标定表格条目留白区域的原始位置;c)计算差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,并通过差值图像中的表格条目留白区域的平移和转动来确定所述像素值之和最小时表格条目留白区域所在的匹配位置;d)对处于匹配位置处的每个表格条目留白区域中的表格内容进行识别,并将识别结果存储起来。该方法可克服表格内容自动录入过程中表格背景以及表格内容错位对表格内容识别的干扰和影响,从而提高表格内容自动录入的准确性。【专利说明】表格内容自动录入方法和装置
本专利技术涉及图像识别
,具体地说,涉及一种表格内容自动录入方法和装置。
技术介绍
目前,很多单位和机构每年每月都要处理大量的表格。为了对这些表格的内容进行统计和管理,通常需要先将这些表格的内容录入到信息化管理系统中。具体地,以发票为例进行说明。每种类型的发票都具有特定的格式。一张发票通常包括多个处于预定位置处的条目,例如开票日期、付款单位、发票代码、发票号码、行业类另IJ、机打票号、查询码、防伪码、项目、金额、密码区、合计(大写)、合计(小写)、备注、收款单位税号、收款单位、开票人等,在每个条目的右侧或下方是与该条目对应的留白区域,用于填充与该条目对应的内容,一般地,这些内容包括文字、数字、字母等。可以通过人工的方法将发票的内容(包括条目以及与各条目对应的内容)录入到信息化管理系统中,但这种方法在待处理的发票数目很多时效率较低。也可以通过自动识别的方法将发票的内容录入到信息化管理系统中。具体说,先将内容待录入的发票进行扫描,形成扫描图像,然后对该扫描图像进行自动识别,以确定并存储与各个条目对应的内容。然而,通过自动识别来录入发票内容的现有方法在解决下列问题上存在不足:1)现有的中文识别算法的识别错误率比较高,特别是在背景干扰(例如印章残迹、污斑、发票品相所引起的干扰)比较大的情形中;2)在很多情形中,发票的内容是通过打印机打印出来的,在打印时,打印的发票内容会发生错位,偏离其应在的位置(即偏离其应该填入的留白区域),从而增大其识别难度并降低其识别精确度。
技术实现思路
本专利技术就是为了解决上述现有技术中存在的问题而做出的,其目的在于提供一种表格内容自动录入方法和装置,以克服表格内容自动录入过程中表格背景对表格内容识别的干扰以及表格内容错位对表格内容识别的影响,从而提高表格内容自动录入的准确性。为了实现上述目的,在本专利技术的一个方面,提供一种表格内容自动录入方法,该方法包括:a)对内容待录入表格进行扫描以形成该表格的扫描图像,并根据空白表格扫描图像数据库中的空白表格扫描图像的类型识别特征对所述内容待录入表格的扫描图像进行类型识别以确定所述内容待录入表格的扫描图像所对应的空白表格扫描图像;b)将所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像对齐,求得该两个扫描图像的差值图像,并根据该空白表格扫描图像中预先标定的表格条目留白区域的原始位置在该差值图像中标定表格条目留白区域的原始位置;c)计算所述差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,并通过所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动来确定所述公共外部像素的像素值之和最小时所述表格条目留白区域所在的匹配位置;d)对处于匹配位置处的每个表格条目留白区域中的表格内容进行自动识别,并将识别结果与该表格条目留白区域所对应的表格条目关联地存储起来。其中,步骤a)中对所述内容待录入表格的扫描图像进行类型识别的方式可以包括自动识别或人工识别或二者的结合。优选地,求得所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像的差值图像的步骤可以包括:求出对齐后的该两个扫描图像的对应像素的像素值的差值,并以该差值作为所述差值图像的相应像素的像素值。或者,优选地,求得所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像的差值图像的步骤可以包括:求出对齐后的该两个扫描图像的对应像素的像素值的差值,如果该差值小于第一阈值,则所述差值图像的相应像素的像素值为0,如果该差值大于第一阈值,则所述差值图像的相应像素的像素值为1另外,优选地,所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动可以包括:所述差值图像中的所有表格条目留白区域相对于该差值图像的整体平移和转动。进一步优选地,所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动还可以包括:所述差值图像中的每个表格条目留白区域相对于该差值图像的单独平移和转动。如果步骤d)中的识别结果为不可识别,则该方法还可以包括对该表格条目留白区域中的表格内容进行人工录入。根据本专利技术的另一方面,提供一种表格内容自动录入装置,该装置包括:扫描成像单元、识别单元、差值图像形成单元、计算单元、表格条目留白区域匹配单元、存储单元,其中,所述扫描成像单元对内容待录入表格进行扫描以形成该表格的扫描图像,所述识别单元根据空白表格扫描图像数据库中的空白表格扫描图像的特征对所述内容待录入表格的扫描图像进行类型识别以确定所述内容待录入表格的扫描图像所对应的空白表格扫描图像;所述差值图像形成单元将所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像对齐,求得该两个扫描图像的差值图像,并根据该空白表格扫描图像中预先标定的表格条目留白区域的原始位置在该差值图像中标定表格条目留白区域的原始位置;所述计算单元计算所述差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,所述表格条目留白区域匹配单元使所述差值图像中的表格条目留白区域相对于该差值图像平移和转动,并根据所述计算单元的计算结果确定所述公共外部像素的像素值之和最小时所述表格条目留白区域所在的匹配位置;所述识别单元对处于所述匹配位置处的每个表格条目留白区域中的表格内容进行自动识别,并将识别结果与该表格条目留白区域所对应的表格条目关联地存储在所述存储单元中。根据上面的说明及实践可知,本专利技术的优点是,通过对内容待录入表格扫描图像与空白表格扫描图像的差值图像进行识别而不是对内容待录入表格扫描图像直接进行识另O,可以克服表格内容自动录入过程中表格背景对表格内容识别的干扰;通过对所述差值图像中的表格条目留白区域进行平移和转动以获得表格条目留白区域与其所对应的表格内容的最佳匹配,然后再对表格条目留白区域中的表格内容进行识别,可以克服表格内容 错位对表格内容识别的影响,从而提高表格内容自动录入的准确性。【专利附图】【附图说明】图1是示意图,示出了本专利技术的一个实施例所述的空白表格扫描图像;图2是示意图,示出了在空白表格扫描图像中预先标定出的表格条目留白区域;图3是流程图,示出了本专利技术所述的表格内容自动录入方法;图4是示意图,示出了一个实施例所述的内容待录入表格的扫描图像;图5是示意图,示出了内容待录入表格扫描图像与空白表格扫描图像的差值图像的一个例子;图6是示意图,示出了在差值图像中标定出的表格条目留白区域的原始位置;图7是示意图,示出了通过表格条目留白区域相对于差值图像的整体平移和转动所确定的表格条目留白区域的匹配位本文档来自技高网...
【技术保护点】
一种表格内容自动录入方法,包括:a)对内容待录入表格进行扫描以形成该表格的扫描图像,并根据空白表格扫描图像数据库中的空白表格扫描图像的类型识别特征对所述内容待录入表格的扫描图像进行类型识别以确定所述内容待录入表格的扫描图像所对应的空白表格扫描图像;b)将所述内容待录入表格的扫描图像与其所对应的空白表格扫描图像对齐,求得该两个扫描图像的差值图像,并根据该空白表格扫描图像中预先标定的表格条目留白区域的原始位置在该差值图像中标定表格条目留白区域的原始位置;c)计算所述差值图像中的所有表格条目留白区域的公共外部像素的像素值之和,并通过所述差值图像中的表格条目留白区域相对于该差值图像的平移和转动来确定所述公共外部像素的像素值之和最小时所述表格条目留白区域所在的匹配位置;d)对处于匹配位置处的每个表格条目留白区域中的表格内容进行自动识别,并将识别结果与该表格条目留白区域所对应的表格条目关联地存储起来。
【技术特征摘要】
【专利技术属性】
技术研发人员:乔东江,吴晨,
申请(专利权)人:西安汇龙科技股份有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。