二维结构公式的识别方法、计算设备及计算机存储介质技术

技术编号:18592993 阅读:37 留言:0更新日期:2018-08-04 20:08
本发明专利技术公开了一种二维结构公式的识别方法、计算设备及计算机存储介质,其中,方法包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据待定文本行中的文本元素确定待定文本行是否为二维结构公式行。由此可见,利用本发明专利技术提供的方案,可以完整且准确识别出二维结构公式行,克服了现有技术中直接根据识别结果,将同一个二维结构公式行识别成多行,而导致的识别错误以及转换结果混乱的问题。

Identification method, computing device and computer storage medium for two-dimensional structure formula

The invention discloses an identification method, a computing device and a computer storage medium for a two-dimensional structure formula, in which the method includes: obtaining the text line information of each line of text, judging whether the mark value of the text element of any adjacent text line satisfies the first merge condition, and / or has a path between the adjacent text lines. In the case of a line, judge whether the row spacing and / or height of the adjacent text rows meet the second merge condition; the adjacent text lines that meet the first merge condition and / or second merge conditions are merged into the undetermined text line; the text elements in the undetermined text line determine whether the undetermined text line is a two-dimensional structural formula. It can be seen that by using the scheme provided by the invention, the two-dimensional structure formula can be fully and accurately identified, and the problem of identifying the same two-dimensional structure formula into multiple lines is overcome, and the problem of the error of recognition and the confusion of conversion results can be overcome in the existing technology.

【技术实现步骤摘要】
二维结构公式的识别方法、计算设备及计算机存储介质
本专利技术涉及文本识别
,具体涉及一种二维结构公式的识别方法、计算设备及计算机存储介质。
技术介绍
目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。与此同时,在电子阅读器中,为使文档内容能够根据阅读设备的特性,以最适于阅读的方式显示,需将版式文档的文档内容的格式进行转换,例如,将PDF文档转成电子出版文档(ElectronicPublication,简称ePUB),或者转成HTML文档。在现有技术中,对PDF中的二维结构公式(即:以独立“行”显示的公式)进行转换识别时,会依据文本元素的显示位置,将二维结构公式识别成多行,使得在转换后的文档中,原来的二维结构公式显示混乱,进而给用户的阅读带来较差的体验。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的二维结构公式的识别方法、计算设备及计算机存储介质。根据本专利技术的一个方面,提供了一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。根据本专利技术的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。根据本专利技术的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。根据本专利技术提供的二维结构公式的识别方法、计算设备及计算机存储介质,当识别出文本行之后,首先获取各行文本行的文本行信息,根据文本行信息判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件,即判断任意相邻文本行是否应该作为一行待定文本行来进行转换处理,将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;然后,进一步根据待定文本行中的文本元素确定待定文本是否为二维结构公式行,以便准确针对二维结构公式行进行转换处理,同时避免错误的对不是二维结构公式行的待定公式行进行转换处理而导致转换后的文档显示的效果差的问题。由此可见,利用本实施例提供的方案,可以完整且准确识别出二维结构公式行,克服了现有技术中直接根据识别结果,将同一个二维结构公式行识别成多行,而导致的识别错误以及转换结果混乱的问题。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术一个实施例的二维结构公式的识别方法的流程图;图2示出了本专利技术另一个实施例的二维结构公式的识别方法的流程图;图3示出了根据本专利技术实施例的一种计算设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。考虑到现有技术中的识别方法,容易造成二维结构公式识别以及显示混乱,给用户带来较差的体验的问题。基于此,本专利技术提供了一种通过预设的规则进行判断识别,并将识别出的二维结构公式对应的区域进行截图处理,以得到二维结构公式图片的方案,进而可以针对得到的二维结构公式图片整体进行转换处理,使二维结构公式可以完整且准确的显示在转换后的文档中。图1示出了本专利技术一个实施例的二维结构公式的识别方法的流程图。如图1所示,该方法包括以下步骤:步骤S110:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件。在对待识别文档进行识别的过程中,为避免将二维结构公式识别成多行。在本实施例中,首先获取利用现有技术识别出的各行文本行的文本行信息,并据此文本行信息判断相邻文本行是否满足第一合并条件和/或第二合并条件,以防止在转换后的文档中,将本应作为一行待定文本行进行转换处理的文本行,错误的作为多行文本行进行处理,进而造成转换处理后的文本显示混乱的问题。其中,文本行信息包括文本行的文本元素和/或文本行参数。举例来说,在PDF文档中,文本元素包括字符、路径线以及图片;文本行参数包括识别出的各行文本行的行高以及文本行之间的行间距,另外文本行信息还包括各个文本元素的标记值,例如,PDF文档中文本元素的索引值,需要在次说明的是,本专利技术并不受上述举例的限定,在具体实施时,本领域技术人员可灵活选择文本行信息。另外,第一合并条件和/或第二合并条件为任意可以确定相邻文本行本应作为一行待定文本行进行转换处理的条件,具体地,第一合并条件为限定相邻行的文本元素的标记值的数值范围的条件;第二合并条件为限定文本行参数的参数值范围的条件。例如,第二合并条件为相邻文本行的行间距小于预设平均行间距。步骤S120:将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行。若相邻文本行满足第一合并条件和/或第二合并条件,则将相邻文本行合并成待定文本行,以便针对该待定文本行整体进行转换处理。具体地,根据相邻文本行的文本行信息将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行,以使合并后的待定文本行中的各个文本元素的位置与待转换文档中的排版更接近。例如,根据各个文本元素的标记值、文本行的行高以及文本行之间的行间距进行合并。步骤S130:根据待定文本行中的文本元素确定待定文本行是否为二维结构公式行。在确定了待定文本行之后本文档来自技高网...

【技术保护点】
1.一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。

【技术特征摘要】
1.一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。2.根据权利要求1所述的方法,其中,所述方法还包括:当确定所述待定文本行为二维结构公式行时,对所述二维结构公式行进行截图处理,得到二维结构公式图片。3.根据权利要求1或2所述的方法,其中,所述判断任意相邻文本行的文本元素的标记值是否满足第一合并条件进一步包括:判断相邻文本行中是否存在任一特定文本行,且相邻文本行中除该特定文本行以外的其它文本行中的文本元素的标记值全部在该特定文本行中的文本元素的标记值的最小值与最大值之间,若是,则判定相邻文本行满足第一合并条件。4.根据权利要求1-3任一项所述的方法,其中,所述根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行进一步包括:根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行;其中,所述文本元素信息包括文本元素的位置信息和/或高度信息。5.根据权利要求4所述的方法,其中,所述根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行进一步包括:将所述待定文本行中的字符与第一特殊符号库中的第一特殊符号进行匹配;其中,第一特殊符号指在数学公式中,在与符号垂直投影相交的区域内同时存在运算符、数学符号和/或数字的特殊符号;若至少一个字符匹配成功,以及,所述至少一个字符的字符高度与所述待定文本行的行高的比值超过预设比值,则确定所述待定文本行为二维结构公式行。6.根据权利要求4或5所述的方法,其中,所述根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行进一步包括:查询所述待定文本行中的...

【专利技术属性】
技术研发人员:张恒
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1