The invention discloses an identification method, a computing device and a computer storage medium for a two-dimensional structure formula, in which the method includes: obtaining the text line information of each line of text, judging whether the mark value of the text element of any adjacent text line satisfies the first merge condition, and / or has a path between the adjacent text lines. In the case of a line, judge whether the row spacing and / or height of the adjacent text rows meet the second merge condition; the adjacent text lines that meet the first merge condition and / or second merge conditions are merged into the undetermined text line; the text elements in the undetermined text line determine whether the undetermined text line is a two-dimensional structural formula. It can be seen that by using the scheme provided by the invention, the two-dimensional structure formula can be fully and accurately identified, and the problem of identifying the same two-dimensional structure formula into multiple lines is overcome, and the problem of the error of recognition and the confusion of conversion results can be overcome in the existing technology.
【技术实现步骤摘要】
二维结构公式的识别方法、计算设备及计算机存储介质
本专利技术涉及文本识别
,具体涉及一种二维结构公式的识别方法、计算设备及计算机存储介质。
技术介绍
目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。与此同时,在电子阅读器中,为使文档内容能够根据阅读设备的特性,以最适于阅读的方式显示,需将版式文档的文档内容的格式进行转换,例如,将PDF文档转成电子出版文档(ElectronicPublication,简称ePUB),或者转成HTML文档。在现有技术中,对PDF中的二维结构公式(即:以独立“行”显示的公式)进行转换识别时,会依据文本元素的显示位置,将二维结构公式识别成多行,使得在转换后的文档中,原来的二维结构公式显示混乱,进而给用户的阅读带来较差的体验。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的二维结构公式的识别方法、计算设备及计算机存储介质。根据本专利技术的一个方面,提供了一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。根据本专利技术的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互 ...
【技术保护点】
1.一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。
【技术特征摘要】
1.一种二维结构公式的识别方法,包括:获取各行文本行的文本行信息,判断任意相邻文本行的文本元素的标记值是否满足第一合并条件,和/或,在相邻文本行之间具有路径线的情况下,判断相邻文本行的行间距和/或行高是否满足第二合并条件;将满足第一合并条件和/或第二合并条件的相邻文本行合并成待定文本行;根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行。2.根据权利要求1所述的方法,其中,所述方法还包括:当确定所述待定文本行为二维结构公式行时,对所述二维结构公式行进行截图处理,得到二维结构公式图片。3.根据权利要求1或2所述的方法,其中,所述判断任意相邻文本行的文本元素的标记值是否满足第一合并条件进一步包括:判断相邻文本行中是否存在任一特定文本行,且相邻文本行中除该特定文本行以外的其它文本行中的文本元素的标记值全部在该特定文本行中的文本元素的标记值的最小值与最大值之间,若是,则判定相邻文本行满足第一合并条件。4.根据权利要求1-3任一项所述的方法,其中,所述根据所述待定文本行中的文本元素确定所述待定文本行是否为二维结构公式行进一步包括:根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行;其中,所述文本元素信息包括文本元素的位置信息和/或高度信息。5.根据权利要求4所述的方法,其中,所述根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行进一步包括:将所述待定文本行中的字符与第一特殊符号库中的第一特殊符号进行匹配;其中,第一特殊符号指在数学公式中,在与符号垂直投影相交的区域内同时存在运算符、数学符号和/或数字的特殊符号;若至少一个字符匹配成功,以及,所述至少一个字符的字符高度与所述待定文本行的行高的比值超过预设比值,则确定所述待定文本行为二维结构公式行。6.根据权利要求4或5所述的方法,其中,所述根据所述待定文本行中的文本元素和/或文本元素信息确定所述待定文本行是否为二维结构公式行进一步包括:查询所述待定文本行中的...
【专利技术属性】
技术研发人员:张恒,
申请(专利权)人:掌阅科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。