用于文档校对的信息处理器和方法技术

技术编号:9198500 阅读:154 留言:0更新日期:2013-09-26 02:39
提供了一种用于文档校对的信息处理器和方法。为了提供一种用于通过检测用户的校对遗漏并且通过即使在用户已经通过校对来改变文本的放置位置时仍然在OCR处理的输出信息中准确反映校对结果来提高校对精确性的信息处理器、方法和程序。在本发明专利技术中,基于输出信息生成文档文件,该文档文件根据OCR处理的文本的读出顺序放置文本,该输出信息包括规定文本位置的信息和通过执行源手稿图像的OCR处理来获得的文本。检测是否有由于用户的校对所致的在文档文件中的行移动。如果已经检测到行移动,则基于规定文本位置并且指示移动的行的目的地的信息,移动被包括在输出信息中的文本(即该行的构成元素)。提供一种在输出信息中反映文档文件的校对结果的信息处理器、方法和程序。

【技术实现步骤摘要】

【技术保护点】
一种用于校对文档的信息处理器,所述信息处理器包括:第一存储单元,用于存储输出信息,所述输出信息包括规定通过对源手稿图像执行OCR而获得的文本的信息及其位置信息;第二存储单元,用于存储由用户校对的文档文件,所述文档文件是通过根据来自所述输出信息的读取顺序来读取经OCR处理的所述文本而生成的;行移动检测单元,用于基于由所述用户对所述文档文件执行的校对来检测包括所述文档文件中所包含的文本的行的移动;以及合并单元,用于在所述输出信息中反映校对所述文档文件的结果;其中所述行移动检测单元计算指示在用于删除包括所述文档文件中所包含的文本的行的行删除操作与行插入操作或者行编辑操作之间的匹配程度的权重,并且通过确定行删除操作以及行插入操作或者行编辑操作是否导致所述加权的最大值来检测所述行的移动;并且所述合并单元在所述行移动检测单元已经检测到所述行的移动的情况下,根据规定在所述权重的计算中获得的所述行的目的地的信息,来移动作为所述行的构成元素并且被包括在所述输出信息中的文本。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:石原辰也高木启伸
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1