公式识别模型的训练方法及装置制造方法及图纸

技术编号:38863213 阅读:33 留言:0更新日期:2023-09-17 10:04
本申请公开了一种公式识别模型的训练方法及装置,获取多个训练实例;筛选图像尺寸处于预设范围内的训练实例,填充图像的图像尺寸得到图像尺寸一致的训练实例;将该训练实例划分到同一簇中得到一个或多个簇;划分多个簇得到每组包含相同个数的训练实例的多组批量数据;将最长公式长度一致的批量数据添加至同一集合中得到一个或多个集合;基于训练实例确定极大似然损失函数;根据极大似然损失函数确定最大间隔损失函数;极大似然损失函数收敛和最大间隔损失函数收敛后,公式识别模型训练成功。在极大似然损失函数收敛后该模型具有识别能力,通过最大间隔损失函数调整该模型,使得该模型在识别精准的同时所识别的公式符合语法规则。法规则。法规则。

【技术实现步骤摘要】
公式识别模型的训练方法及装置


[0001]本申请涉及公式识别领域,尤其涉及一种公式识别模型的训练方法及装置。

技术介绍

[0002]数学公式的识别作为图像识别中的重要部分,在智慧教育、拍照识别、文档识别、试题的录入和检索等应用场景有着广泛的研究和应用。
[0003]目前,通常通过公式识别模型对数学公式进行识别,现有的公式识别模型一般是基于编码器

解码器结构,通过卷积神经网络提取图像特征,然后利用神经网络等结构对图像特征进行解码,进而得到识别后的公式,由于在使用公式识别模型识别公式时,未明确公式语法规则,可能导致所识别的公式存在语法错误,无法被直接使用。
[0004]因此,如何训练准确识别公式的公式识别模型,成为本领域亟需解决的问题。

技术实现思路

[0005]本申请提供了一种公式识别模型的训练方法及装置,目的在于训练准确识别公式的公式识别模型。
[0006]为了实现上述目的,本申请提供了以下技术方案:
[0007]一种公式识别模型的训练方法,包括:
[0008]获取多个训练实例;每一所述训练实例由图像

文本序列对组成,所述文本序列用于表示通过标记语言标记的公式;所述图像所包含的公式与所述训练实例中的所述文本序列一致;
[0009]对于每个所述训练实例,筛选图像尺寸处于预设范围内的训练实例,并对训练实例中图像的图像尺寸进行填充,得到图像尺寸一致的训练实例;
[0010]将所述图像尺寸一致的训练实例划分到同一簇中,得到一个或多个簇;
[0011]划分多个所述簇,得到每组包含相同个数的训练实例的多组批量数据;
[0012]针对每组所述批量数据,将所述文本序列中最长公式长度一致的批量数据添加至同一集合中,得到一个或多个集合;
[0013]从所述集合中选取多组所述批量数据,并基于多组所述批量数据中的所述训练实例计算得到极大似然损失函数;
[0014]根据所述极大似然损失函数,确定最大间隔损失函数;
[0015]在所述极大似然损失函数收敛,以及所述最大间隔损失函数收敛后,确定公式识别模型训练成功。
[0016]可选的,所述根据所述极大似然损失函数,确定最大间隔损失函数,包括:
[0017]在所述极大似然损失函数收敛后,确定初始公式识别模型训练成功;
[0018]将待识别图像输入至所述初始公式识别模型中,得到所述初始公式识别模型输出的识别结果;所述识别结果至少包括正样本数据以及负样本数据;
[0019]计算所述正样本数据与所述负样本数据之间的负似然函数差值;
[0020]当所述负似然函数差值不大于第一预设阈值时,将所述负似然函数差值确定为最大间隔损失函数。
[0021]可选的,所述划分多个所述簇,得到每组包含相同个数的训练实例的多组批量数据,包括:
[0022]对于每个所述训练实例中的图像,利用编码器对所述图像进行编码,得到特征图;
[0023]基于所述特征图的图像尺寸、所述文本序列的公式长度与显存之间的正比关系,计算得到计算资源;所述计算资源至少包括显存;
[0024]根据所述计算资源,确定批量个数;
[0025]对于各个所述簇,根据所述批量个数对所述簇进行划分处理,得到每组包含相同个数的训练实例的多组批量数据。
[0026]可选的,所述根据所述计算资源,确定批量个数,包括:
[0027]将预设倍数的显存设置为第二预设阈值;
[0028]对所述第二预设阈值进行调整,得到调整后的第二预设阈值;所述调整后的第二预设阈值趋近于所述预设最大显存,且不大于所述预设最大显存;
[0029]对于每个训练实例,将所述图像的图像尺寸与训练实例进行相乘,得到各个第一计算结果;
[0030]将每个所述第一计算结果进行累加求和,得到第二计算结果;
[0031]当所述第二计算结果大于所述调整后的第二预设阈值,且不大于第三预设阈值时,将所述训练实例的数量确定为批量个数。
[0032]可选的,所述针对每组所述批量数据,将所述文本序列中最长公式长度一致的批量数据添加至同一集合中,得到一个或多个集合,包括:
[0033]针对每组所述批量数据,从所述批量数据的文本序列中获取每个公式的公式长度;
[0034]从所述每个公式的公式长度中筛选出最长公式长度;
[0035]将所述最长公式长度一致的批量数据,添加至同一集合中,得到一个或多个集合。
[0036]可选的,所述基于多组所述批量数据中的所述训练实例计算得到极大似然损失函数,包括:
[0037]将预先计算的每个注意力分布进行相加,得到多个视觉覆盖集;
[0038]利用图像融合技术将多个所述视觉覆盖集与各个特征图进行融合,得到各个目标特征图;所述特征图由预先对目标图像编码得到;
[0039]对于每个目标特征图,将预先计算的每个概率分布中的特征图替换为目标特征图;
[0040]将每个所述概率分布进行累加求和,得到目标参数;
[0041]基于所述目标参数、多组所述批量数据中的所述训练实例以及模型参数,计算得到各个负似然损失函数;
[0042]从各个所述负似然损失函数筛选出最小的负似然损失函数,并标识为目标模型参数;
[0043]基于所述目标参数、多组所述批量数据中的所述训练实例以及所述目标模型参数,计算得到极大似然损失函数。
[0044]可选的,还包括:
[0045]将包含数学公式的图片输入至所述公式识别模型中,得到所述公式识别模型输入的公式识别结果;所述公式识别结果至少包括所述数学公式。
[0046]一种公式识别模型的训练装置,包括:
[0047]获取单元,用于获取多个训练实例;每一所述训练实例由图像

文本序列对组成,所述文本序列用于表示通过标记语言标记的公式;所述图像所包含的公式与所述训练实例中的所述文本序列一致;
[0048]筛选单元,用于对于每个所述训练实例,筛选图像尺寸处于预设范围内的训练实例,并对训练实例中图像的图像尺寸进行填充,得到图像尺寸一致的训练实例;
[0049]第一划分单元,用于将所述图像尺寸一致的训练实例划分到同一簇中,得到一个或多个簇;
[0050]第二划分单元,用于划分多个所述簇,得到每组包含相同个数的训练实例的多组批量数据;
[0051]添加单元,用于针对每组所述批量数据,将所述文本序列中最长公式长度一致的批量数据添加至同一集合中,得到一个或多个集合;
[0052]选取单元,用于从所述集合中选取多组所述批量数据,并基于多组所述批量数据中的所述训练实例计算得到极大似然损失函数;
[0053]第一确定单元,用于根据所述极大似然损失函数,确定最大间隔损失函数;
[0054]第二确定单元,用于在所述极大似然损失函数收敛,以及所述最大间隔损失函数收敛后,确定公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公式识别模型的训练方法,其特征在于,包括:获取多个训练实例;每一所述训练实例由图像

文本序列对组成,所述文本序列用于表示通过标记语言标记的公式;所述图像所包含的公式与所述训练实例中的所述文本序列一致;对于每个所述训练实例,筛选图像尺寸处于预设范围内的训练实例,并对训练实例中图像的图像尺寸进行填充,得到图像尺寸一致的训练实例;将所述图像尺寸一致的训练实例划分到同一簇中,得到一个或多个簇;划分多个所述簇,得到每组包含相同个数的训练实例的多组批量数据;针对每组所述批量数据,将所述文本序列中最长公式长度一致的批量数据添加至同一集合中,得到一个或多个集合;从所述集合中选取多组所述批量数据,并基于多组所述批量数据中的所述训练实例计算得到极大似然损失函数;根据所述极大似然损失函数,确定最大间隔损失函数;在所述极大似然损失函数收敛,以及所述最大间隔损失函数收敛后,确定公式识别模型训练成功。2.根据权利要求1所述的方法,其特征在于,所述根据所述极大似然损失函数,确定最大间隔损失函数,包括:在所述极大似然损失函数收敛后,确定初始公式识别模型训练成功;将待识别图像输入至所述初始公式识别模型中,得到所述初始公式识别模型输出的识别结果;所述识别结果至少包括正样本数据以及负样本数据;计算所述正样本数据与所述负样本数据之间的负似然函数差值;当所述负似然函数差值不大于第一预设阈值时,将所述负似然函数差值确定为最大间隔损失函数。3.根据权利要求1所述的方法,其特征在于,所述划分多个所述簇,得到每组包含相同个数的训练实例的多组批量数据,包括:对于每个所述训练实例中的图像,利用编码器对所述图像进行编码,得到特征图;基于所述特征图的图像尺寸、所述文本序列的公式长度与显存之间的正比关系,计算得到计算资源;所述计算资源至少包括显存;根据所述计算资源,确定批量个数;对于各个所述簇,根据所述批量个数对所述簇进行划分处理,得到每组包含相同个数的训练实例的多组批量数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述计算资源,确定批量个数,包括:将预设倍数的显存设置为第二预设阈值;对所述第二预设阈值进行调整,得到调整后的第二预设阈值;所述调整后的第二预设阈值趋近于所述预设最大显存,且不大于所述预设最大显存;对于每个训练实例,将所述图像的图像尺寸与训练实例进行相乘,得到各个第一计算结果;将每个所述第一计算结果进行累加求和,得到第二计算结果;
当所述第二计算结果大于所述调整后的第二预设阈值,且不大于第三预设阈值时,将所述训练实例的数量确定为批量个数。5.根据权利要求1所述的方法,其特征在于,所述针对每组所述批量数据,将所述文本序列中最长公式长度一致的批量数据添加至同一集合中,得到一个或多个集合,包括:针对每组所述批量数据,从所述批量数据的文本序列中获取每个公式的公式长度;从所述每个公式的公式长度中筛选出最长公式长度;将所述最长公式长度一致的批量数据,添加至同一集合中,得到一个或多个集合。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:刘淇陈恩红杨哲张凯童世炜
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1