本发明专利技术公开了一种通过试卷属性去重的方法、装置及存储介质,所述通过试卷属性去重的方法,包括:获取试卷库中的试卷以及该试卷的试卷属性信息;通过试卷属性信息在试卷库中进行匹配;将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族。本发明专利技术将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族包括:将试卷属性标签完整且全部匹配的试卷直接自动判定为重复试卷,将试卷属性标签部分缺失但匹配相同的试卷筛选出来待确认是否重复试卷,具体可通过人工判重;实现了系统先将符合自动判重条件的试卷直接去重,再将筛选出的待确认的疑似重复试卷由人工进行判重,即提高了试卷判重的效率,又避免了系统自动判重出现错误。出现错误。出现错误。
【技术实现步骤摘要】
一种通过试卷属性去重的方法、装置及存储介质
[0001]本专利技术涉及在线教育
,具体的涉及一种通过试卷属性去重的方法、装置及存储介质。
技术介绍
[0002]在线教育平台为了提供拍照搜题、智能练习、作业批改等线上服务,一般都需要基于强大的试题数据库。现有的试题生产入库的流程一般是,首先通过各种渠道获取试题资源,试题资源可以是直接购买的试题库资源或者是获取试卷资源,针对获取的试卷资源,需要将试卷资源中的试题进行拆分,将拆分后的试题按照试题入库的格式要求进行生产入库。
[0003]然而,获取试卷资源的途径是多方面的,会通过不同的收集端口分别取收集试卷资源,这就导致收集在试卷库中的试卷会有重复,重复试卷的产生会导致相同试题的重复生产,在试题的生产流程中还需要进行去重,造成了系统资源的浪费,影响试题生产的效率。因此,如何解决试题库中相同试卷的去重问题,对于相同试题的重复生产的规避以及提升试题的生产效率具有重要的意义。
[0004]有鉴于此,特提出本专利技术。
技术实现思路
[0005]本专利技术为了解决上述技术问题,提供了一种通过试卷属性去重的方法、装置及存储介质,具体技术方案如下:
[0006]本专利技术提出了一种通过试卷属性去重的方法,包括:
[0007]获取试卷库中的试卷以及该试卷的试卷属性信息;
[0008]通过试卷属性信息在试卷库中进行匹配;
[0009]将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族。
[0010]作为本专利技术的可选实施方式,所述获取试卷库中的试卷以及该试卷的试卷属性信息包括:
[0011]获取试卷库中试卷的试卷编号以及该试卷编号被标注的试卷属性标签,所述的试卷属性标签包括多个,分别表示试卷的多个属性信息;
[0012]将试卷编号与各试卷属性标签按照预设的数据化结构进行存储。
[0013]作为本专利技术的可选实施方式,所述通过试卷属性信息在试卷库中进行匹配包括:
[0014]针对试卷属性标签进行匹配;
[0015]若各试卷属性标签均对应相同,则试卷属性信息匹配完全相同。
[0016]作为本专利技术的可选实施方式,所述试卷库中的目标筛选试卷标注有第一试卷属性标签、第二试卷属性标签、
……
、第N试卷属性标签;
[0017]在试卷数据库中筛选出与目标筛选试卷的试卷属性标签数相同的第一试卷集;
[0018]在第一试卷集中以第一试卷属性标签为匹配条件筛选出相同第一试卷属性标签
的第二试卷集;
[0019]在第二试卷集中以第二试卷属性标签为匹配条件筛选出相同第二试卷属性标签的第三试卷集;
[0020]……
在第N试卷集中以第N试卷属性标签为匹配条件筛选出相同第N试卷属性标签的第N+1试卷集;
[0021]所述第N+1试卷集中试卷的试卷属性信息匹配完全相同。
[0022]作为本专利技术的可选实施方式,所述将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族包括:
[0023]所述的试卷属性标签包括年份属性标签、学科属性标签、年级属性标签、学期属性标签、地区属性标签及试卷类型属性标签;
[0024]筛选出试卷库中所述年份属性标签、学科属性标签、年级属性标签、学期属性标签、地区属性标签及试卷类型属性标签均对应匹配相同的试卷,获取各试卷的试卷编号合并入相同族,并判定为重复试卷。
[0025]作为本专利技术的可选实施方式,所述将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族包括:
[0026]筛选出试卷库中试卷属性标签缺失部分相同,且标注的试卷属性标签对应相同的试卷,获取各试卷的试卷编号合并入相同族,并判定为待确认是否重复试卷。
[0027]作为本专利技术的可选实施方式,所述试卷库中的试卷标注有置信度,针对试卷库中置信度低于设定值的试卷不被允许执行所述通过试卷属性去重的方法。
[0028]作为本专利技术的可选实施方式,本专利技术的一种通过试卷属性去重的方法,还包括召回核验流程:
[0029]针对试卷库中试卷属性信息匹配失败的试卷,通过设定筛选条件进行筛选出召回核验试卷集;
[0030]接收针对召回核验试卷集做出的人工核验结果,统计计算试卷的重复率;
[0031]若所述重复率小于设定召回率,则当前执行的所述通过试卷属性去重的方法有效。
[0032]作为本专利技术的可选实施方式,所述试卷库中试卷的试卷属性信息标注包括:
[0033]获取试卷资源中的试卷名称;
[0034]根据试卷名称在系统预设的试卷属性信息库内进行匹配;
[0035]将匹配成功的试卷属性信息作为当前试卷资源入库的试卷属性标签。
[0036]本专利技术同时提出一种通过试卷属性去重的装置,包括:
[0037]试卷属性信息获取模块,获取试卷库中的试卷以及该试卷的试卷属性信息;
[0038]试卷属性信息匹配模块,通过试卷属性信息在试卷库中进行匹配;
[0039]以及试卷判重模块,将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族。
[0040]本专利技术同时还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现上述任意一项所述的一种通过试卷属性去重的方法。
[0041]与现有技术相比,本专利技术的有益效果:
[0042]本专利技术的通过试卷属性去重的方法根据试卷属性信息进行匹配,当试卷属性信息
完全匹配,则各套试卷筛选出来合并入相同族,以进行进一步的去重筛查或者直接判定为相同试卷做出去重处理。
[0043]本专利技术的通过试卷属性去重的方法,所述将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族包括:将试卷属性标签完整且全部匹配的试卷直接自动判定为重复试卷,将试卷属性标签部分缺失但匹配相同的试卷筛选出来待确认是否重复试卷,具体可通过人工判重。本专利技术的通过试卷属性去重的方法中系统先将符合自动判重条件的试卷直接去重,再将筛选出的待确认的疑似重复试卷由人工进行判重,即提高了试卷判重的效率,又避免了系统自动判重出现错误。
附图说明:
[0044]图1本专利技术实施例一的通过试卷属性去重的方法的流程框图一;;
[0045]图2本专利技术实施例一的通过试卷属性去重的方法的流程框图二;
[0046]图3本专利技术实施例一的通过试卷属性去重的方法的流程框图三;
[0047]图4本专利技术实施例一的通过试卷属性去重的方法的流程框图四;
[0048]图5本专利技术实施例一的通过试卷属性去重的方法的流程框图五;
[0049]图6本专利技术实施例二的基于试卷结构的试题难度标注方法的处理流程图;
[0050]图7本专利技术实施例二的基于试卷结构的试题难度标注方法中试题难度传递图的示例图一;
[0051]图8本专利技术实施例二的基于试卷结构的试题难度标注方法中试题难度传递图的示例图二;
[0052]图9本专利技术本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种通过试卷属性去重的方法,其特征在于,包括:获取试卷库中的试卷以及该试卷的试卷属性信息;通过试卷属性信息在试卷库中进行匹配;将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族。2.根据权利要求1所述的一种通过试卷属性去重的方法,其特征在于,所述获取试卷库中的试卷以及该试卷的试卷属性信息包括:获取试卷库中试卷的试卷编号以及该试卷编号被标注的试卷属性标签,所述的试卷属性标签包括多个,分别表示试卷的多个属性信息;将试卷编号与各试卷属性标签按照预设的数据化结构进行存储。3.根据权利要求2所述的一种通过试卷属性去重的方法,其特征在于,所述通过试卷属性信息在试卷库中进行匹配包括:针对试卷属性标签进行匹配;若各试卷属性标签均对应相同,则试卷属性信息匹配完全相同。4.根据权利要求3所述的一种通过试卷属性去重的方法,其特征在于,所述试卷库中的目标筛选试卷标注有第一试卷属性标签、第二试卷属性标签、
……
、第N试卷属性标签;在试卷数据库中筛选出与目标筛选试卷的试卷属性标签数相同的第一试卷集;在第一试卷集中以第一试卷属性标签为匹配条件筛选出相同第一试卷属性标签的第二试卷集;在第二试卷集中以第二试卷属性标签为匹配条件筛选出相同第二试卷属性标签的第三试卷集;
……
在第N试卷集中以第N试卷属性标签为匹配条件筛选出相同第N试卷属性标签的第N+1试卷集;所述第N+1试卷集中试卷的试卷属性信息匹配完全相同。5.根据权利要求4所述的一种通过试卷属性去重的方法,其特征在于,所述将试卷属性信息匹配完全相同的各套试卷筛选出来合并入相同族包括:所述的试卷属性标签包括年份属性标签、学科属性标签、...
【专利技术属性】
技术研发人员:韩均雷,陶扬,王辰成,刘海哮,刘冀星,李雨桐,
申请(专利权)人:作业帮教育科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。