比较两个含有图形元素和文本元素的文件的设备和方法技术

技术编号：11137929 阅读：103 留言：0更新日期：2015-03-12 15:59

为避免阻塞次要错误及其导致的再也识别不到准确的错误，提供了一种用于比较两个包含图形元素和文本元素的文件的设备，其包含针对两个文件的存储器、用于将两个文件分割成图形元素和文本元素的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、用于比较已提取的文本的装置、用于比较位图的装置以及用于优选地一并输出两个比较结果的装置。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】专利
本专利技术涉及一种用于比较两个含有图形元素和文本元素的文件的装置。
技术介绍
现有技术中已知的相应的设备为文本验证工具(TVT)或对象验证工具(OVT)。就OVT而言，通过逐个像素地比较两个文件来进行对象的比较，为此，如果必要的话要预先渲染这两个文件。对于这些文件的纯图形元素来说，由于能检测到当时任何像素的偏移并立即将该偏移作为错误提供，因此可获得很好的结果。由于在文本改变的过程中，会产生行中断或更改的字母或单词空格，即使没有发生改变其也会直接导致各个像素的偏移，并且该偏移会作为错误提供，因此这样的OVT注定不适用于文本的比较。后者不会在文本验证的过程中发生，在这种情况下，首先从各个文件中提取文本，为此可使用例如本身已知的OCR程序。同样地，对于文本识别，首先通过从更复杂的文件中进行提取的方式来对文本进行分割，这些更复杂的文件例如是具有恰当地定义为文本的文件元素的pdf、PostScript、Word文件。另外，针对TVT而言，依据文件类型还要对文本串流或文本流进行定级从而允许内容或文本的比较，这对多栏文本、或其他段落号或行号位于文本前的文本、或页眉、页脚项或页边码位于顶部或底部的文本来说尤为必要。然而，此后通过这种文本比较工具能够迅速且精确地检测到并提供任意文本的变化。不过这种文本比较工具的缺陷在于：不能比较图形，从而最终无论是否存在相同的图像，全局的比较在这里顶多是可能的。因此，在这两种情况下，均...

【技术保护点】
一种用于比较两个包含图形元素和文本元素的文件的设备，其特征在于，包括：针对这两个文件的存储器、用于将这两个文件分割成图形元素和文本元素的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、用于比较已提取的文本的装置、用于比较位图的装置以及用于优选一并输出两个比较结果的装置。

【技术特征摘要】
【国外来华专利技术】2012.05.02 DE 102012008512.51.一种用于比较两个包含图形元素和文本元素的文件的设备，其特征在于，
包括：针对这两个文件的存储器、用于将这两个文件分割成图形元素和文本元素
的装置、用于进行文本识别的装置、用于从图形元素中产生位图的位图形装置、
用于比较已提取的文本的装置、用于比较位图的装置以及用于优选一并输出两个
比较结果的装置。
2.根据权利要求1所述的设备，其特征在于，所述位图形装置包括位图形
引擎和/或位图形处理器。
3.根据权利要求1或2所述的设备，其特征在于，输出装置包括存储器和
用于将比较结果保存在所述存储器中的结果文件中的存储装置。
4.根据权利要求3所述的设备，其特征在于，所述存储装置以待比较的两
个文件中的至少一个文件的格式保存所述结果文件。
5.根据权利要求1至4中任一项所述的设备，其特征在于，输出装置包括
监视器。
6.根据权利要求1至5中任一项所述...

【专利技术属性】
技术研发人员：安斯加尔·考普，迪尔克·吕特晏斯，索伦·斯普林曼，
申请(专利权)人：艾可有限公司，
类型：发明
国别省市：德国;DE

全部详细技术资料下载我是这个专利的主人