解题模型的训练方法及装置制造方法及图纸

技术编号:34738394 阅读:20 留言:0更新日期:2022-08-31 18:29
本说明书提供解题模型的训练方法及装置,其中所述解题模型的训练方法包括:获取题干样本,以及所述题干样本对应的数字算式;提取所述题干样本中的数字单元,确定所述数字单元对应的字符标记单元;根据所述字符标记单元更新所述数字算式,获得样本字符表达式;利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型。有效的保证了训练后的解题模型的预测精准度,并提高了解题模型的训练效率。并提高了解题模型的训练效率。并提高了解题模型的训练效率。

【技术实现步骤摘要】
解题模型的训练方法及装置


[0001]本说明书涉及人工智能
,特别涉及一种解题模型的训练方法。本说明书同时涉及一种解题模型的训练装置,一种解题方法,一种解题装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的发展和自然语言处理技术的不断成熟,实际应用中通常使用智能解题模型实现对各类问题的解答。
[0003]然而,目前通过智能解题模型解答的问题主要集中于语言类问题,例如翻译文本、文章理解等,但是对于数学领域的问题,由于数学题目不仅包含文本语句,还包含数学符号和数字,使得目前的智能解题模型难以理解数学领域的问题,导致对数学领域的问题解题准确率较低,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种解题模型的训练方法。本说明书同时涉及一种解题模型的训练装置,一种解题方法,一种解题装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种解题模型的训练方法,包括:
[0006]获取题干样本,以及所述题干样本对应的数字算式;
[0007]提取所述题干样本中的数字单元,确定所述数字单元对应的字符标记单元;
[0008]根据所述字符标记单元更新所述数字算式,获得样本字符表达式;
[0009]利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型。
[0010]根据本说明书实施例的第二方面,提供了一种解题模型的训练装置,包括:
[0011]获取模块,被配置为获取题干样本,以及所述题干样本对应的数字算式;
[0012]确定模块,被配置为提取所述题干样本中的数字单元,确定所述数字单元对应的字符标记单元;
[0013]更新模块,被配置为根据所述字符标记单元更新所述数字算式,获得样本字符表达式;
[0014]训练模块,被配置为利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型。
[0015]根据本说明书实施例的第三方面,提供了一种解题方法,包括:
[0016]获取用户上传的问题文本,并提取所述问题文本中的数字单元;
[0017]将所述问题文本输入至如本说明书实施例提供的解题模型的训练方法中的目标解题模型进行处理,获得目标字符表达式,其中,所述目标字符表达式中的目标字符标记单元的元素与所述数字单元在所述问题文本中的顺序相关;
[0018]根据所述数字单元对所述目标字符表达式进行更新,获得目标数字算式;
[0019]根据所述目标数字算式确定问题文本的目标答案,并向用户进行反馈。
[0020]根据本说明书实施例的第四方面,提供了一种解题装置,包括:
[0021]获取模块,被配置为获取用户上传的问题文本,并提取所述问题文本中的数字单元;
[0022]处理模块,被配置为将所述问题文本输入至如本说明书实施例提供的解题模型的训练方法中的目标解题模型进行处理,获得目标字符表达式,其中,所述目标字符表达式中的目标字符标记单元的元素与所述数字单元在所述问题文本中的顺序相关;
[0023]更新模块,被配置为根据所述数字单元对所述目标字符表达式进行更新,获得目标数字算式;
[0024]确定模块,根据所述目标数字算式确定问题文本的目标答案,并向用户进行反馈。
[0025]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0026]存储器和处理器;
[0027]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现所述解题模型的训练方法或解题方法的步骤。
[0028]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述解题模型的训练方法或解题方法的步骤。
[0029]本说明书提供的解题模型的训练方法,获取题干样本,以及所述题干样本对应的数字算式;为了能够保证数据准备阶段的样本满足模型训练要求,以提高模型训练效率,提取所述题干样本中的数字单元,确定所述数字单元对应的字符标记单元,实现了对题干样本中的数字的预处理,进而提高了对题干样本的理解程度;根据所述字符标记单元更新所述数字算式,获得样本字符表达式;利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型,实现在模型训练过程中,可以确定与样本题干中的数字单元确定的字符标记单元,将题干样本对应的数字算式更新为样本字符表达式,并以此为基础训练解题模型,可以有效的保证训练后的解题模型的预测精准度,并提高了解题模型的训练效率。
附图说明
[0030]图1是本说明书一实施例提供的一种解题模型的训练方法的流程图;
[0031]图2是本说明书一实施例提供的一种应用于日文应用题的解题模型的训练方法的结构示意图;
[0032]图3是本说明书一实施例提供的一种解题模型的训练装置的结构示意图;
[0033]图4是本说明书一实施例提供的一种解题方法的流程图;
[0034]图5是本说明书一实施例提供的一种应用于日文应用题的解题方法的流程图;
[0035]图6是本说明书一实施例提供的一种解题装置的结构示意图;
[0036]图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0038]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0039]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0040]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0041]mT5模型:Multilingual T5,T5模型的多国语言版,mT5模型的预训练语料涵盖了10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解题模型的训练方法,其特征在于,包括:获取题干样本,以及所述题干样本对应的数字算式;提取所述题干样本中的数字单元,确定所述数字单元对应的字符标记单元;根据所述字符标记单元更新所述数字算式,获得样本字符表达式;利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述字符标记单元更新所述数字算式,获得样本字符表达式步骤执行之前,还包括:确定所述数字单元在所述题干样本中的顺序;根据所述数字单元在所述题干样本中的顺序,对所述字符标记单元进行排序;相应的,根据所述字符标记单元更新所述数字算式,获得样本字符表达式,包括:根据排序后的字符标记单元更新所述数字算式,获得样本字符表达式。3.根据权利要求1所述的方法,其特征在于,所述根据所述字符标记单元更新所述数字算式,获得样本字符表达式,包括:确定所述数字算式中的算式数字单元,其中,所述算式数字单元与所述数字单元相对应;确定所述数字单元和所述字符标记单元之间的映射关系;基于所述映射关系,将所述算式数字单元替换为所述字符标记单元,获得样本字符表达式。4.根据权利要求1所述的方法,其特征在于,所述利用所述样本字符表达式和所述题干样本对初始解题模型进行训练,直至获得满足训练停止条件的目标解题模型,包括:将所述题干样本输入至所述初始解题模型进行处理,得到预测字符表达式;基于所述样本字符表达式和所述预测字符表达式对所述初始解题模型进行优化,直至获得满足训练停止条件的目标解题模型。5.根据权利要求4所述的方法,其特征在于,所述将所述题干样本输入至所述初始解题模型进行处理,得到预测字符表达式,包括:将所述题干样本输入至所述初始解题模型,通过所述初始解题模型中的编码器对所述题干样本进行编码处理,得到编码向量;通过所述初始解题模型中的解码器对所述编码向量进行解码处理,得到预测字符表达式并输出所述初始解题模型;其中,所述预测字符表达式包括运算符号和预测字符标记单元。6.根据权利要求5所述的方法,其特征在于,所述通过所述初始解题模型中的解码器对所述编码向量进行解码处理,得到预测字符表达式并输出所述初始解题模型,包括:通过所述初始解题模型中的解码器对所述编码向量进行递归解码处理,依次输出多个预测字符,其中,所述解码器输出的当前预测字符关联所述当前预测字符的上相邻预测字符;根据所述多个预测字符生成所述预测字符表达式并输出所述初始解题模型。7.根据权利要求4所述的方法,其特征在于,所述基于所述样本字符表达式和所述预测字符表达式对所述初始解题模型进行优化,直至获得满足训练停止条件的目标解题模型,
包括:基于所述目标字符表达式和所述预测字符表达式计算模型损失值;在所述模型损失值大于预设阈值的情况下,根据所述模型损失值,调整所述初始解题模型的模型参数,继续训练模型参数调整后的初始解题模型,直至获得满...

【专利技术属性】
技术研发人员:刘洋柳景明赵薇翁秋洁张天宇
申请(专利权)人:北京飞象星球科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1