一种基于手写数学符号识别和可视化编辑的数学公式输入方法技术

技术编号:37245856 阅读:7 留言:0更新日期:2023-04-20 23:26
本发明专利技术公开了一种基于手写数学符号识别和可视化编辑的数学公式输入方法,属于基于图像识别的符号输入技术领域。包括:对数学公式中的符号进行归类整理,提取用户手写输入的数学符号图片并通过深度学习模型进行符号类别识别,输出类别概率并记录前K个类别概率最高的符号类别并采用候选列表的形式向用户展示,当用户点击某个列表项时,将对应的数学符号或模板插入数学公式编辑器中光标所在位置;若最高类别概率大于设定的概率阈值时,则将其对应符号类别的代表符号插入到数学公式编辑器中光标所在位置;清空用户手写输入的所有笔迹,进行数学公式的下一个数学符号的输入处理。本发明专利技术的数学公式输入效率高,学习成本低。学习成本低。

【技术实现步骤摘要】
一种基于手写数学符号识别和可视化编辑的数学公式输入方法


[0001]本专利技术属于基于图像识别的符号输入
,具体涉及一种基于手写符号识别和可视化编辑的数学公式输入方法。

技术介绍

[0002]科学技术作为社会发展的主要动力,其自身的发展势必会越发蓬勃与迅速。数学作为科学技术的基础,在科学技术研究,科技文献的撰写与传播中几乎成了必要内容之一。因此,人们对数学公式输入效率的要求也越来越高。
[0003]当前,数学公式输入形式主要有三种:基于图形界面模板形式、基于Latex数学公式描述语言和基于机器学习或深度学习的手写数学公式整体识别。
[0004]第一种数学公式输入形式的代表软件包括Microsoft Word文字处理软件中的公式插入工具、MathType数学公式编辑软件等。这种基于GUI和公式模板的数学公式输入方式,其优点是提供了所见即所得的直观的数学公式输入体验,但是由于数学符号多大上百种,每次需要输入键盘上没有的数学符号,或者需要输入某种数学公式结构,就需要到软件的符号面板或模板面板中寻找所需符号或模板然后点击插入。由于肉眼查找的过程是非常低效的,这导致数学公式的整体输入效率十分低下,输入体验也不佳。
[0005]基于Latex数学公式描述语言的数学公式输入方式,就是在文本编辑器中输入数学公式对应的Latex代码。这种数学公式输入方式的优点是一旦熟练掌握了Latex的语法和其包含的数百个数学符号和数学结构的Latex代码,则可以较高的速度流畅地输入数学公式,无需在鼠标和键盘之间来回切换。但是缺点也很明显,那就是前期的学习成本太高,需要记忆上百种数学符号和数学结构(例如分式、根式、极限、累和、矩阵、多行大括号等)对应的Latex代码。另一个缺点是当数学公式逐渐复杂时,Latex代码会显得繁杂不堪,很难一眼看出公式中的某一部分对应到代码中的哪一个部分,当需要对公式进行修改时,就需要仔细阅读Latex代码,弄清楚要修改的部分在代码中的具体位置,因此公式修改的效率低,负担高。
[0006]基于机器学习或深度学习算法对公式整体识别的方案也存在不小缺陷。目前对印刷体数学公式的识别效果较为理想,但对手写体公式的识别准确率尚且难以达到应用的地步。例如当书写的公式较为复杂冗长时,书写界面的高度和宽度可能需要适当调整;当书写过程中发生笔误时,需要切换到擦除模式进行擦除操作;当书写完一个很长的公式后发现识别结果不正确,就需要将整个公式擦掉重写,这个过程还可能会重复若干次,因此公式的输入效率难以保障。

技术实现思路

[0007]本专利技术的目的是克服上述现有技术的缺陷,提供一种基于手写数学符号识别和可视化编辑的数学公式输入方法,使得数学公式输入的效率更高,学习成本更低。
[0008]本专利技术采用的技术方案如下:
[0009]一种基于手写数学符号识别和可视化编辑的数学公式输入方法,包括下列步骤:
[0010]步骤1:对数学公式中的符号表进行分类设置,确定每个符号类别包括的数学符号和每个符号类别的代表符号;
[0011]步骤2:提取用户手写输入的数学符号图片;
[0012]步骤3:基于配置的深度学习模型,对所述数学符号图片进行符号类别识别,输出当前数学符号图片属于各个符号类别的类别概率(预测概率),并记录前K(预设值)个类别概率最高的符号类别;
[0013]步骤4:采用候选列表的形式向用户展示所记录的K个符号类别所包括的数学符号及其模板,当用户点击某个列表项时,将对应的数学符号或模板插入数学公式编辑器中光标所在位置;
[0014]若最高类别概率大于设定的概率阈值时,则将其对应符号类别的代表符号插入到数学公式编辑器中光标所在位置;
[0015]步骤5:清空用户手写输入的所有笔迹;
[0016]步骤6:重复步骤2

5直到数学公式输入完毕。
[0017]进一步的,步骤1中,分类设置时包括:
[0018]根据字符的相似程度进行类别划分;
[0019]根据使用场景的相似程度进行类别划分;
[0020]设置各类括号的模板,每种模板构成一个类别,其中模板由左右括号组成。
[0021]进一步的,本专利技术方法还包括:对用户从数学公式编辑器中选中的进行显示编辑的目标符号进行显示调整,包括字体、前景色、背景色。
[0022]进一步的,本专利技术方法还包括:通过公式编辑器导出输入公式的指定代码。
[0023]进一步的,用户通过画布手写输入数学符号。
[0024]进一步的,步骤2中,当检测到用户手写输入完毕时,提取用户手写输入的数学符号图片;
[0025]其中,检测用户手写输入完毕包括:
[0026]当用户鼠标处于按下状态时,判定为数学符号正在书写;
[0027]当用户鼠标没有按下,但是正在移动时,判定为数学符号正在书写;
[0028]当用户鼠标静止时间超过指定时间时,判定为数学符号书写完毕。
[0029]进一步的,步骤3中,所述数学符号图片进行符号类别识别处理,对所述数学符号图片进行像素值归一化处理,再输入到深度学习模型中,获取当前数学符号图片属于各个符号类别的类别概率。
[0030]进一步的,步骤3中,采用的深度学习模型的网络结构包括依次连接的第一卷积模块、堆叠的若干个第二模块单元、第二卷积模块、展平层(如flatten层)和类别概率输出层;
[0031]所述第一卷积模块包括卷积层和激活函数,用于将输入特征图的通道数从1提升n,其中n表示数学符号类别数;
[0032]所述第二模块单元包括依次连接的DenseBlock模块和池化模块,所述DenseBlock模块包括若干个第三卷积模块和若干个拼接层,在DenseBlock模块中,第三卷积模块和拼接层交替出现,且所述拼接层用于对进入该DenseBlock模块的输入特征图、当前拼接层之
前的各第三卷积模块输出的特征图在通道维度上进行拼接;所述第三卷积块用于按需调整输出的特征图的尺寸所述池化模块用于对DenseBlock模块输出的特征图的平均池化结果和最大池化结果进行逐元素相加;所述第二卷积模块输出的特征图的宽和高一致。
[0033]进一步的,所述第一卷积模块包括批归一化层、卷积层和Relu6激活函数;
[0034]所述第二卷积模块和第三卷积模块采用相同的网络结构,包括批归一化层、深度可分离卷积层和Relu6激活函数;
[0035]所述类别概率输出层包括若干层全连接层和sofmtmax层,所述sofmtmax层用于输出当前数学符号图片属于各个符号类别的类别概率。
[0036]10.根据权利要求1所述的方法,其特征在于,步骤4中,采用候选列表的形式向用户展示所记录的K个符号类别所包括的数学符号及其模板时,包括:
[0037]对记录的K个符号类别按照类别概率降序排练,并定义s
k
表示第k个符号类别的代表符号,s

k...

【技术保护点】

【技术特征摘要】
1.一种基于手写数学符号识别和可视化编辑的数学公式输入方法,其特征在于:步骤1:对数学公式中的符号表进行分类设置,确定每个符号类别包括的数学符号和每个符号类别的代表符号;步骤2:提取用户手写输入的数学符号图片;步骤3:基于配置的深度学习模型,对所述数学符号图片进行符号类别识别,输出当前数学符号图片属于各个符号类别的类别概率,并记录前K个类别概率最高的符号类别;步骤4:采用候选列表的形式向用户展示所记录的K个符号类别所包括的数学符号及其模板,当用户点击某个列表项时,将对应的数学符号或模板插入数学公式编辑器中光标所在位置;若最高类别概率大于设定的概率阈值时,则将其对应符号类别的代表符号插入到数学公式编辑器中光标所在位置;步骤5:清空用户手写输入的所有笔迹;步骤6:重复步骤2

5直到数学公式输入完毕。2.如权利要求1所述的方法,其特征在于,步骤1中,分类设置时包括:根据字符的相似程度进行类别划分;根据使用场景的相似程度进行类别划分;设置各类括号的模板,每种模板构成一个类别,其中模板由左右括号组成。3.如权利要求1所述的方法,其特征在于,还包括:对用户从数学公式编辑器中选中的进行显示编辑的目标符号进行显示调整,包括字体、前景色、背景色。4.如权利要求1所述的方法,其特征在于,还包括:通过公式编辑器导出输入公式的指定代码。5.根据权利要求1所述的方法,其特征在于,用户通过画布手写输入数学符号。6.根据权利要求1至任一项5所述的方法,其特征在于,步骤2中,当检测到用户手写输入完毕时,提取用户手写输入的数学符号图片;其中,检测用户手写输入完毕包括:当用户鼠标处于按下状态时,判定为数学符号正在书写;当用户鼠标没有按下,但是正在移动时,判定为数学符号正在书写;当用户鼠标静止时间超过指定时间时,判定为数学符号书写完毕。7.根据权利要求1所述的方法,其特征在于,步骤3中,所述数学符号图片进行符号类别识别处理,对所述数学符号图片进行像素值归一化处理,再输入到深度学习模型中,获取当前数学符号图片属于各个符号类别的类别概率。8.根据权利要求7所述的方法,其特征在于,步骤3中,采用的深度学习模型的网络结构包括依次连接的第一卷积模块、堆叠的若干个第二模块单元、第二卷积模块、展平层和类别概率输出层;所述第一卷积模块包括卷积层和激活函数,用于...

【专利技术属性】
技术研发人员:饶云波王发新
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1