答题模型的训练方法、答题方法及装置制造方法及图纸

技术编号：40759230 阅读：8 留言：0更新日期：2024-03-25 20:11

本发明专利技术提供一种答题模型的训练方法、答题方法及装置，其中，训练方法包括：获取预训练数据、第三试题图像及其对应的第三试题文本和第三答案文本；预训练数据包括第一试题文本及其对应的第一答案文本，以及第二试题图像及其中各文本行的位置和文本内容，基于预训练数据对初始模型进行训练，得到预训练模型；基于预训练模型，确定第三试题图像对应的预测试题文本和预测答案文本；基于第三试题图像对应的预测试题文本和预测答案文本，以及第三试题文本和第三答案文本进行模型微调，得到答题模型，克服了目前答题方案无法对包含图像的题目进行答题的缺陷，通过训练后的答题模型实现了对任意题型题目的有效作答，保证了答题准确性，提升了答题效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其涉及一种答题模型的训练方法、答题方法及装置。

技术介绍

1、随着互联网的普及和在线教育的兴起，学生可以更方便地获取各种学习资源和信息。然而，如何有效地利用这些资源，提高学习效率和学习成果成为了一个亟待解决的问题，此种情况下，自动答题技术应运而生，其可以快速准确的提供问题答案，从而帮助学生更好地理解和掌握知识，进而提高学习效率。

2、然而，目前的自动答题技术大多使用的是基于transformer的自然语言处理架构，若原始题目为图片，则先进行文本识别，以获取题目信息，然后，将题目信息输入到模型中以获取最终的作答文本；此种方式虽然实现了自动答题，但是，其仅适用于纯文本的题目，而无法对含有图像的题目进行有效的作答。

技术实现思路

1、本专利技术提供一种答题模型的训练方法、答题方法及装置，用以解决现有技术中仅能针对于纯文本题目进行自动答题，而无法对包含图像的题目进行自动答题的缺陷，通过训练后的答题模型实现对任意题型的题目的有效作答，在保证答题准确性的同时，提升了答题效率。

2、本专利技术提供一种答题模型的训练方法，包括：

3、获取预训练数据和训练数据，所述预训练数据包括第一试题文本及其对应的第一答案文本，以及第二试题图像及其中各文本行的位置和文本内容，所述训练数据包括第三试题图像，以及所述第三试题图像对应的第三试题文本和第三答案文本；

4、基于所述预训练数据，对初始模型进行训练，得到预训练模型；

5、基于

6、基于所述第三试题图像对应的预测试题文本和预测答案文本，以及所述第三试题文本和所述第三答案文本，对所述预训练模型进行模型微调，得到答题模型。

7、根据本专利技术提供的一种答题模型的训练方法，所述基于所述预训练模型，确定所述第三试题图像对应的预测试题文本和预测答案文本，包括：

8、基于所述预训练模型，确定所述第三试题图像对应的预测试题文本；

9、基于所述预训练模型，以及所述第三试题图像及其对应的预测试题文本，确定所述第三试题图像对应的预测答案文本。

10、根据本专利技术提供的一种答题模型的训练方法，所述基于所述预训练数据，对初始模型进行训练，得到预训练模型，包括：

11、基于所述初始模型，确定所述第一试题文本对应的预测答案文本；

12、基于所述第一试题文本对应的预测答案文本和所述第一答案文本，对所述初始模型进行训练，得到第一预训练模型；

13、基于所述第一预训练模型，确定所述第二试题图像中各文本行的预测位置，以及所述各文本行的预测内容；

14、基于所述各文本行的位置和文本内容，以及所述预测位置和所述预测内容，对所述第一预训练模型进行训练，得到预训练模型。

15、根据本专利技术提供的一种答题模型的训练方法，所述基于所述第三试题图像对应的预测试题文本和预测答案文本，以及所述第三试题文本和所述第三答案文本，对所述预训练模型进行模型微调，得到答题模型，之后还包括：

16、获取答题图像，以及所述答题图像对应的试题文本和答题结果；

17、基于所述答题模型，确定所述答题图像对应的预测试题文本；

18、基于所述答题模型，以及所述答题图像及其对应的预测试题文本，确定所述答题图像对应的预测答题结果；

19、基于所述答题图像对应的预测试题文本和预测答题结果，以及所述试题文本和所述答题结果，对所述答题模型进行模型微调，得到审阅模型。

20、根据本专利技术提供的一种答题模型的训练方法，所述初始模型是在图像编码器和认知模型的基础上构建得到的。

21、本专利技术还提供一种答题方法，包括：

22、确定待作答的试题图像；

23、基于答题模型，确定所述试题图像对应的答案文本；

24、所述答题模型是基于如上述任一项所述的答题模型的训练方法确定的。

25、根据本专利技术提供的一种答题方法，所述基于答题模型，确定所述试题图像对应的答案文本，包括：

26、基于所述答题模型，确定所述试题图像对应的试题图像特征；

27、确定试题提示文本，并基于所述试题提示文本确定文本特征；

28、基于所述答题模型，以及所述试题图像特征和所述文本特征，确定所述试题图像对应的答案文本。

29、根据本专利技术提供的一种答题方法，所述基于所述答题模型，以及所述试题图像特征和所述文本特征，确定所述试题图像对应的答案文本，包括：

30、基于所述答题模型，对所述试题图像特征和所述文本特征进行注意力交互，得到所述试题图像对应的试题文本；

31、基于所述试题文本，确定答题提示文本，基于所述答题提示文本确定答题文本特征；

32、基于所述答题模型，对所述试题图像特征和所述答题文本特征进行注意力交互，得到所述试题图像对应的答案文本。

33、根据本专利技术提供的一种答题方法，还包括：

34、确定待审阅的答题图像；

35、基于审阅模型，确定所述答题图像对应的答题图像特征；

36、确定试题提示文本，并基于所述试题提示文本确定文本特征；

37、基于所述审阅模型，以及所述答题图像特征和所述文本特征，确定所述答题图像对应的答题结果。

38、根据本专利技术提供的一种答题方法，所述基于所述审阅模型，以及所述答题图像特征和所述文本特征，确定所述答题图像对应的答题结果，包括：

39、基于所述审阅模型，对所述答题图像特征和所述文本特征进行注意力交互，得到所述答题图像对应的试题文本；

40、基于所述答题图像对应的试题文本，确定审阅提示文本，并基于所述审阅提示文本确定审阅文本特征；

41、基于所述审阅模型，对所述答题图像特征和所述审阅文本特征进行注意力交互，得到所述答题图像对应的答题结果。

42、本专利技术还提供一种答题模型的训练装置，包括：

43、获取单元，用于获取预训练数据和训练数据，所述预训练数据包括第一试题文本及其对应的第一答案文本，以及第二试题图像及其中各文本行的位置和文本内容，所述训练数据包括第三试题图像，以及所述第三试题图像对应的第三试题文本和第三答案文本；

44、预训练单元，用于基于所述预训练数据，对初始模型进行训练，得到预训练模型；

45、预测单元，用于基于所述预训练模型，确定所述第三试题图像对应的预测试题文本和预测答案文本；

46、训练单元，用于基于所述第三试题图像对应的预测试题文本和预测答案文本，以及所述第三试题文本和所述第三答案文本，对所述预训练模型进行模型微调，得到答题模型。

47、本专利技术还提供一种答题装置，包括：

48、确定单元，用于确定待作答的试题图像；

49、答题单元，用于基本文档来自技高网...

【技术保护点】

1.一种答题模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的答题模型的训练方法，其特征在于，所述基于所述预训练模型，确定所述第三试题图像对应的预测试题文本和预测答案文本，包括：

3.根据权利要求1所述的答题模型的训练方法，其特征在于，所述基于所述预训练数据，对初始模型进行训练，得到预训练模型，包括：

4.根据权利要求1至3中任一项所述的答题模型的训练方法，其特征在于，所述基于所述第三试题图像对应的预测试题文本和预测答案文本，以及所述第三试题文本和所述第三答案文本，对所述预训练模型进行模型微调，得到答题模型，之后还包括：

5.根据权利要求1至3中任一项所述的答题模型的训练方法，其特征在于，所述初始模型是在图像编码器和认知模型的基础上构建得到的。

6.一种答题方法，其特征在于，包括：

7.根据权利要求6所述的答题方法，其特征在于，所述基于答题模型，确定所述试题图像对应的答案文本，包括：

8.根据权利要求7所述的答题方法，其特征在于，所述基于所述答题模型，以及所述试题图像特征和所述文本特征，

9.根据权利要求6所述的答题方法，其特征在于，还包括：

10.根据权利要求9所述的答题方法，其特征在于，所述基于所述审阅模型，以及所述答题图像特征和所述文本特征，确定所述答题图像对应的答题结果，包括：

11.一种答题模型的训练装置，其特征在于，包括：

12.一种答题装置，其特征在于，包括：

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的答题模型的训练方法，或如权利要求6至10任一项所述的答题方法。

14.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的答题模型的训练方法，或如权利要求6至10任一项所述的答题方法。

...

【技术特征摘要】

1.一种答题模型的训练方法，其特征在于，包括：

3.根据权利要求1所述的答题模型的训练方法，其特征在于，所述基于所述预训练数据，对初始模型进行训练，得到预训练模型，包括：

5.根据权利要求1至3中任一项所述的答题模型的训练方法，其特征在于，所述初始模型是在图像编码器和认知模型的基础上构建得到的。

6.一种答题方法，其特征在于，包括：

7.根据权利要求6所述的答题方法，其特征在于，所述基于答题模型，确定所述试题图像对应的答案文本，包括：

8.根据权利要求7...

【专利技术属性】
技术研发人员：过友辉，张建树，殷保才，殷兵，胡金水，刘聪，魏思，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人