为避免阻塞次要错误及其导致的再也识别不到准确的错误,提供了一种用于比较两个包含图形元素和文本元素的文件的设备,其包含针对两个文件的存储器、用于将两个文件分割成图形元素和文本元素的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、用于比较已提取的文本的装置、用于比较位图的装置以及用于优选地一并输出两个比较结果的装置。
【技术实现步骤摘要】
【国外来华专利技术】专利
本专利技术涉及一种用于比较两个含有图形元素和文本元素的文件的装置。
技术介绍
现有技术中已知的相应的设备为文本验证工具(TVT)或对象验证工具(OVT)。就OVT而言,通过逐个像素地比较两个文件来进行对象的比较,为此,如果必要的话要预先渲染这两个文件。对于这些文件的纯图形元素来说,由于能检测到当时任何像素的偏移并立即将该偏移作为错误提供,因此可获得很好的结果。由于在文本改变的过程中,会产生行中断或更改的字母或单词空格,即使没有发生改变其也会直接导致各个像素的偏移,并且该偏移会作为错误提供,因此这样的OVT注定不适用于文本的比较。后者不会在文本验证的过程中发生,在这种情况下,首先从各个文件中提取文本,为此可使用例如本身已知的OCR程序。同样地,对于文本识别,首先通过从更复杂的文件中进行提取的方式来对文本进行分割,这些更复杂的文件例如是具有恰当地定义为文本的文件元素的pdf、PostScript、Word文件。另外,针对TVT而言,依据文件类型还要对文本串流或文本流进行定级从而允许内容或文本的比较,这对多栏文本、或其他段落号或行号位于文本前的文本、或页眉、页脚项或页边码位于顶部或底部的文本来说尤为必要。然而,此后通过这种文本比较工具能够迅速且精确地检测到并提供任意文本的变化。不过这种文本比较工具的缺陷在于:不能比较图形,从而最终无论是否存在相同的图像,全局的比较在这里顶多是可能的。因此,在这两种情况下,均阻塞了次要错误的发生,从而再也检测不到确切的错误。据此,本专利技术的任务是避免所说的该类方法和设备的这个缺陷。
技术实现思路
作为解决方案,本专利技术提供了具有独立权利要求的特征的设备和方法。因此,用于比较两个包含图形和文本元素的文件的设备的特征在于,其包括:针对两个文件的存储器、用于将两个文件分割成图形元素和文本元素的装置、用于进行文本识别的装置、用于从图形元素中产生位图(Rastergrafiken)的位图形装置、用于比较已提取的文本的装置、用于比较位图的装置以及用于优选一并输出两个比较结果的装置。用于比较两个包含图形元素和文本元素的文件的方法的特征在于:将图形元素和文本元素在两个文件中进行分割;该方法的特征还在于:如果必要的话,从图形元素中产生各个位图,位图形彼此进行图形比较;如果必要的话,从文本元素中对各个文本进行识别,文本彼此进行文本比较。因此,通过前述的图形元素和文本元素的分割操作,可以首次分别对各个元素进行适用于此目的的查看或适用于此目的的比较,其优势在于相应的对比也会得到相应的有意义的结果及能进行有意义地解释的结果。就此而言,能理解的是,位图的产生仅在相应的文件尚未具有位图格式时是必要的。同样地,当文件已经具有以纯格式提供的文本时,可以不需要进行相应的文本识别。然而,尤其是在日常专业的商务活动例如在准备证据副本及其讨论期间,由于此时所采用的文件经常为图形容器格式,例如pdf文件或PostScript文件,因此更有可能涉及照片。基本上,针对图形元素和文本元素的分割而言有利的是先对文本元素进行分割并优选地将其置于单独的层。例如,这可通过应用文本识别程序(例如OCR),并经由例如以位图格式存在的文件来实现。然后将在这种情况下识别出来的文本恰当地置于单独的层中,并且优选地将其从图形层中移除出去。如果必要的话,也可以其它方式准备仅包含图形的层,例如通过将所有不属于文本元素的元素移至恰当的图形层中的方式。如果文本以图形容器格式提供,例如,可对相应地标记为文本元素的图形容器格式的区域进行标识,然后将它们置于单独的文本层中。因此进行了直接的文本识别,为此,在必要时经由其自身已知的表格给以图形容器格式提供的符号分配字母,以便于识别这样的文本,然后通过进行文本流处理将文本转换成nhro(自然的人类阅读顺序)文本。由此,将栏或表格符号中的文本等整合成在当前的上下文环境中具有含义的单元,这最终可从TVT中的现有技术中充分得知。具体说,可以理解的是,可使这些文本的阅读或流动顺序与各种语言相适应,例如先从左对右然后仅从上至下,或者先从上至下然后仅从右至左。然后,对文本的任何变化进行编辑,并以人们能立即理解和明白的方式提供该变化。因此,如果相应的文本识别装置还包括用于从文本元素中提取文本的装置以及用于提供文本流的装置的话,这也是有利的。在这种情况下,文本识别可得到文本层中的文本,或甚至得到单独的nhro文本层中的文本。就已包含单独的文本的适当的容器格式而言,可以理解的是,可省去复杂的文本识别,因为这些文本可以从各个容器格式中选择性地提取。然而实际上,进行比较的文件中的至少一个文件不会以此种格式存在,或即使会以这种格式存在也不会包含单独的文本,因此必须首先执行前文所述的复杂的文本识别。如果图形元素尚未以位图格式存在,则当将这些图形元素渲染为位图(即转换为位图)时,这是有利的。就此而言,能理解的是,必要时使相应的位图在各个文件的主层里或图形层里或附加的位图层里提供。对于渲染而言,具体说,位图形装置可包括位图形引擎和/或甚至包括位图形处理器。由此,可快速且操作方面上可靠地以期望精度进行相应的位图处理或相应的渲染。优选的是,将一并提供比较结果,这可通过例如是叠加适当的层的方式来实现。具体说,可将比较结果显示在作为输出装置的监视器上。同样地,可想到的是,优选将比较结果一并保存到文件中,然后使该文件可为例如客户所用,以验证例如证据副本中的所发生的变化。因此,当输出装置包括存储器和用于将比较结果保存至存储器中的结果文件中的存储装置时,这是有利的。当存储装置以待比较的两个文件中的至少一个文件的格式来保存结果文件时,可尤其有利地进一步处理比较结果。因此,可保证对打开以及必要时评价该结果文件必要的相关的程序对于已准备了待比较的文件中的至少一个文件的人而言是可获得的。能理解的是,如果必要的话,可对如前所述的或如权利要求中所述的解决方案的特征进行合并,以便能适当地累积实现这些优点。附图说明基于以下特别参照附图对示例性的实施例进行的说明,可解释本专利技术的进一步的优点、目标和特征,其中:图1在下部示出了根据本专利技术的处理过程,在上部示出了根据现有技术的处理过程;图2示出了包含图形元素和文本元素的两个待比较文件,以及根据传统的对象验证方法的比较结果;图3示出了根据本专利技术的处理过程以及基于图2中待比较的两个文件的结果;图4本文档来自技高网...
【技术保护点】
一种用于比较两个包含图形元素和文本元素的文件的设备,其特征在于,包括:针对这两个文件的存储器、用于将这两个文件分割成图形元素和文本元素的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、用于比较已提取的文本的装置、用于比较位图的装置以及用于优选一并输出两个比较结果的装置。
【技术特征摘要】
【国外来华专利技术】2012.05.02 DE 102012008512.51.一种用于比较两个包含图形元素和文本元素的文件的设备,其特征在于,
包括:针对这两个文件的存储器、用于将这两个文件分割成图形元素和文本元素
的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、
用于比较已提取的文本的装置、用于比较位图的装置以及用于优选一并输出两个
比较结果的装置。
2.根据权利要求1所述的设备,其特征在于,所述位图形装置包括位图形
引擎和/或位图形处理器。
3.根据权利要求1或2所述的设备,其特征在于,输出装置包括存储器和
用于将比较结果保存在所述存储器中的结果文件中的存储装置。
4.根据权利要求3所述的设备,其特征在于,所述存储装置以待比较的两
个文件中的至少一个文件的格式保存所述结果文件。
5.根据权利要求1至4中任一项所述的设备,其特征在于,输出装置包括
监视器。
6.根据权利要求1至5中任一项所述...
【专利技术属性】
技术研发人员:安斯加尔·考普,迪尔克·吕特晏斯,索伦·斯普林曼,
申请(专利权)人:艾可有限公司,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。