习题分类录入方法、系统及电子设备技术方案

技术编号:34325367 阅读:11 留言:0更新日期:2022-07-31 01:01
本发明专利技术提供了一种习题分类录入方法、系统及电子设备,涉及数据分析技术领域,该方法通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。效率低的问题。效率低的问题。

【技术实现步骤摘要】
习题分类录入方法、系统及电子设备


[0001]本专利技术涉及数据分析
,尤其是涉及一种习题分类录入方法、系统及电子设备。

技术介绍

[0002]随着线上教育模式的推广,更多用户通过使用电子设备实现了数字化学习,常见的使用场景如:在线答题、在线搜题等。在线上教育领域中,需要将大量在书本试卷等纸质习题进行分类,最终录入到相关数据库中。数据库越丰富,用户能够搜到更丰富更准确的电子习题,从而更好的实现对知识点的查漏补缺,从而提高学习效率。
[0003]现有技术中对习题的分类录入主要是将纸质习题扫描成pdf格式或者图片格式的扫描文件,然后通过手动框选或者键盘输入的方式将扫描文件上的习题录入数据库。由于涉及众多学科,包含了海量的知识点,因此通过手动输入的方式费时费力,且效率很低。
[0004]综上所述,现有的习题分类录入过程中还存在着效率低的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种习题分类录入方法、系统及电子设备,通过对习题图片上的题目进行自动的习题分割、文本获取、标签获取、知识点提取以及分类录入,可利用已完成训练的题目检测模型、文本检测模型、标签检测模型、知识点匹配模型实现习题的自动化分类录入,可一次性完成大批量的习题分类录入,解决了现有习题分类录入过程中存在的效率低的问题。
[0006]第一方面,本专利技术实施例提供了一种习题分类录入方法,该方法包括以下步骤:
[0007]获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;
>[0008]按照不同习题的习题编号,提取习题图片中包含的习题区域;
[0009]识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串;
[0010]提取字符串中包含的所有分词标签,并根据分词标签确定习题编号对应的知识点;
[0011]根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中。
[0012]在一些实施方式中,获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片的步骤之后,方法还包括:
[0013]获取习题图像中包含的文本;
[0014]根据习题图像中文本的显示效果,确定习题图像的增强策略;
[0015]利用增强策略对习题图像进行增强处理;增强策略至少包含:添加噪声、模糊化、缩放、旋转以及背景融合所对应的上述一种或多种图像处理算法。
[0016]在一些实施方式中,按照不同习题的习题编号,提取习题图片中包含的习题区域
的步骤,包括:
[0017]将习题图片输入至已完成训练的题目检测模型;
[0018]题目检测模型根据习题图片中包含的习题编号,提取并输出习题图片中包含的习题区域;
[0019]其中,题目检测模型的训练过程,包括:
[0020]获取多个包含不同习题的习题图片;
[0021]对习题图片中各习题对应的题目进行多边形标注,得到标注区域;
[0022]将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第一卷积神经网络模型中进行训练;
[0023]当第一卷积神经网络模型的损失值满足预设条件时停止训练,并将第一卷积神经网络模型确定为题目检测模型。
[0024]在一些实施方式中,识别习题区域中包含的习题文本,并将习题文本格式化为与习题编号对应的字符串的步骤,包括:
[0025]将习题区域对应的习题图片输入至已完成训练的文本检测模型;
[0026]文本检测模型根据习题图片中习题区域包含的文本行,提取并输出习题区域中包含的习题文本;
[0027]将文本行通过标志位格式化为行字符,并将行字符与习题文本按照习题编号进行排列,得到与习题编号对应的字符串;
[0028]其中,文本检测模型的训练过程,包括:
[0029]获取多个包含不同习题的习题图片;
[0030]对习题图片中各习题对应的文本行进行多边形标注,得到标注区域;
[0031]将习题图片与标注区域对应的位置坐标确定为训练集,并将训练集按批次分别输入至已初始化的第二卷积神经网络模型中进行训练;
[0032]当第二卷积神经网络模型的损失值满足预设条件时停止训练,并将第二卷积神经网络模型确定为文本检测模型。
[0033]在一些实施方式中,提取字符串中包含的所有分词标签的过程,包括:
[0034]将字符串输入至已完成训练的标签检测模型;
[0035]标签检测模型根据字符串对应的习题文本所包含的所有分词,提取并输出分词对应的分词标签;
[0036]其中,标签检测模型的训练过程,包括:
[0037]获取多个包含不同习题的习题文本;
[0038]对习题文本中包含的分词进行标注,得到分词标签;
[0039]将习题文本与分词标签确定为训练集,并将训练集按批次分别输入至已初始化的第三卷积神经网络模型中进行训练;
[0040]当第三卷积神经网络模型的损失值满足预设条件时停止训练,并将第三卷积神经网络模型确定为标签检测模型。
[0041]在一些实施方式中,根据分词标签确定习题编号对应的知识点的过程,包括:
[0042]将分词标签输入至已完成训练的知识点匹配模型;
[0043]知识点匹配模型根据分词标签对应的内容,按照习题编号提取并输出与分词标签
对应的知识点;
[0044]其中,知识点匹配模型的训练过程,包括:
[0045]将多个包含不同习题的习题文本及其对应的知识点确定为第一训练集;
[0046]对第一训练集中包含的习题文本及其对应的知识点进行数据清洗操作,得到第二训练集;其中,数据清洗操作包括:同义词替换、特殊字符删除以及标签符号删除上述一种或多种数据转换操作;
[0047]将第二训练集按批次分别输入至已初始化的第四卷积神经网络模型中进行训练;
[0048]当第四卷积神经网络模型的损失值满足预设条件时停止训练,并将第四卷积神经网络模型确定为知识点匹配模型。
[0049]在一些实施方式中,根据知识点将习题文本进行分类,并将完成分类的习题文本录入至预设的知识点目录中的步骤,包括:
[0050]根据知识点目录中对应的知识点类型,确定知识点类型列表;
[0051]查找知识点是否包含于知识点类型列表中;
[0052]若知识点包含于知识点类型列表中,则将知识点对应的习题文本录入至对应的知识点目录中。
[0053]在一些实施方式中,若知识点不包含于知识点类型列表中,则将知识点更新至知识点目录后,将知识点对应的习题文本录入至对应的知识点目录中。
[0054]第二方面,本专利技术实施例提供了一种习题分类录入系统,该系统包括:
[0055]格式转换模块,用于获取包含多个不同习题的纸质文本,并将纸质文本转化为习题图片;
[0056]习题区域提取模块,用于按照不同习题本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种习题分类录入方法,其特征在于,所述方法包括:获取包含多个不同习题的纸质文本,并将所述纸质文本转化为习题图片;按照所述不同习题的习题编号,提取所述习题图片中包含的习题区域;识别所述习题区域中包含的习题文本,并将所述习题文本格式化为与所述习题编号对应的字符串;提取所述字符串中包含的所有分词标签,并根据所述分词标签确定所述习题编号对应的知识点;根据所述知识点将所述习题文本进行分类,并将完成分类的所述习题文本录入至预设的知识点目录中。2.根据权利要求1所述的习题分类录入方法,其特征在于,获取包含多个不同习题的纸质文本,并将所述纸质文本转化为习题图片的步骤之后,所述方法还包括:获取所述习题图像中包含的文本;根据所述习题图像中所述文本的显示效果,确定所述习题图像的增强策略;利用所述增强策略对所述习题图像进行增强处理;所述增强策略至少包含:添加噪声、模糊化、缩放、旋转以及背景融合所对应的上述一种或多种图像处理算法。3.根据权利要求1所述的习题分类录入方法,其特征在于,按照所述不同习题的习题编号,提取所述习题图片中包含的习题区域的步骤,包括:将所述习题图片输入至已完成训练的题目检测模型;所述题目检测模型根据所述习题图片中包含的习题编号,提取并输出所述习题图片中包含的习题区域;其中,所述题目检测模型的训练过程,包括:获取多个包含不同习题的习题图片;对所述习题图片中各习题对应的题目进行多边形标注,得到标注区域;将所述习题图片与所述标注区域对应的位置坐标确定为训练集,并将所述训练集按批次分别输入至已初始化的第一卷积神经网络模型中进行训练;当所述第一卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第一卷积神经网络模型确定为所述题目检测模型。4.根据权利要求1所述的习题分类录入方法,其特征在于,识别所述习题区域中包含的习题文本,并将所述习题文本格式化为与所述习题编号对应的字符串的步骤,包括:将所述习题区域对应的习题图片输入至已完成训练的文本检测模型;所述文本检测模型根据所述习题图片中所述习题区域包含的文本行,提取并输出所述习题区域中包含的习题文本;将所述文本行通过标志位格式化为行字符,并将所述行字符与所述习题文本按照所述习题编号进行排列,得到与所述习题编号对应的字符串;其中,所述文本检测模型的训练过程,包括:获取多个包含不同习题的习题图片;对所述习题图片中各习题对应的文本行进行多边形标注,得到标注区域;将所述习题图片与所述标注区域对应的位置坐标确定为训练集,并将所述训练集按批次分别输入至已初始化的第二卷积神经网络模型中进行训练;
当所述第二卷积神经网络模型的损失值满足预设条件时停止训练,并将所述第二卷积神经网络模型确定为所述文本检测模型。5.根据权利要求1所述的习题分类录入方法,其特征在于,提取所述字符串中包含的所有分词标签的过程,包括:将所述字符串输入至已完成训练的标签检测模型;所述标签检测模型根据...

【专利技术属性】
技术研发人员:杨腾飞吴亚军叶炎军
申请(专利权)人:杭州数橙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1