基于知识结构的相似试题识别方法技术

技术编号:27059362 阅读:35 留言:0更新日期:2021-01-15 14:39
本发明专利技术公开了一种基于知识结构的相似试题识别方法,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。

【技术实现步骤摘要】
基于知识结构的相似试题识别方法
本专利技术涉及机器学习和教育数据挖掘
,尤其涉及一种基于知识结构的相似试题识别方法。
技术介绍
识别相似试题(FSE)是在线教育系统的一项基本且具有挑战性的任务,它可以用于试题检索和学生能力建模等在线教育系统。近年来,在线教育系统的研究和应用蓬勃发展,这些系统不仅可以帮助老师有针对性地给学生布置试题,还能协助学生巩固自己学习到的知识点;其中相似试题识别任务在这里面扮演着至关重要的角色。知识点的结构信息储存在知识结构中,知识结构解释了一个领域中的知识概念是如何相互关联的,它可以用来建模知识之间的关联概念从而进一步帮助识别相似的试题。目前,相似试题识别的相关工作大多是利用试题的相似文本、图片或者知识点标签特征,但是忽略了知识点的结构信息,因此,相似试题识别的效果还有待提升。
技术实现思路
本专利技术的目的是提供一种基于知识结构的相似试题识别方法,引入了知识点的结构信息,相较于现有方案而言,考虑因素更加全面,对数据的理解更加深入,可以准确高效地判断题对之间的相似程度,有效提升相似试题识别的效果。本专利技术的目的是通过以下技术方案实现的:一种基于知识结构的相似试题识别方法,包括:获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。由上述本专利技术提供的技术方案可以看出,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于知识结构的相似试题识别方法的原理图;图2为本专利技术实施例提供的内容表示层及结构融合层的原理图;图3为本专利技术实施例提供的试题通过KnowNet模型学习到的注意力权重热力图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于知识结构的相似试题识别方法,包括:获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。本专利技术实施例中,所述的相似试题是具有相同的考查目的,或者说有相似语义的试题。将相似试题识别任务定义为:给定一个试题的集合以及每个试题对应的内容信息EC(比如试题的文本信息ET,图片信息EI)和知识点信息KC以及知识点的层级结构KS(也称为知识结构),目标是利用这些异构信息去学得一个基于知识结构的多模态模型模型可以用来评估题对的相似度得分并且可以通过对候选试题集合R的相似度得分排序来找到试题E的相似试题集合:其中的Θ表示模型的参数,R=(E1,E2,E3...)是试题E的候选试题列表,表示根据相似度得分排序后的候选试题列表,E的相似试题就是候选集合中相似度得分最高的试题。图1示出了本专利技术的主要原理,其中的(a)部分表示主要的步骤流程,CRL、SFL、SSL分别为内容表示层、结构融合层及相似度得分层,FCLayer为全连接层。(b)部分为试题所包含的信息内容,即文本信息ET,图片信息EI、知识点信息KC。(c)、(d)部分别为CRL、SFL内部结构,(e)部分为SFL的输出结果(rE、),(f)为SFL中自注意力机制的原理,使用的是著名的scaled-dotproductattention(缩放点乘注意力)结构,用于输出语义和知识点的融合表示。本专利技术实施例中,从数据处理层面进行了改进,考虑了多方面的因素,来提升相似试题识别的效果;具体来说,构建的模型中引入了知识点结构,改进了模型效果,可以加深对数据的理解,从而准确高效地判断试题对之间的相似程度。下面针对本专利技术实施例上述方案做详细的介绍。一、数据收集与预处理。1.数据收集。使用了真实的教育平台数据集,数据集包括由知识点间关系组成的知识结构和试题的内容信息,其中试题的内容包括试题的文本,试题包含的图片,此外标注了试题所考查的知识点。2.数据预处理。在训练模型之前,需要对数据集进行预处理来提升模型的效果。1)对试题的文本进行处理,用正则匹配删除一些无用符号后进行分词,再删除停止词和低频词;2)把所有试题的图像缩放到大小一致,这样方便输入到模型中。二、构建基于知识结构的多模态模型(KnowNet)。KnowNet模型,它利用了知识点所具有的图结构性质,并通过三个阶段来实现题对相似度得分的评估,KnowNet的架构如图1的(a)部分所示。为了处理不同类型的数据,使用了多种子模块来获取文本和图片的向量表示,并在不同阶段采用不同的注意力机制对各类型的数据进行融合处理。1、内容表示层(ContentRepresentationLayer,CRL)。内容表示层的目的是输出每个试题的图文联合语义表示,架构如图1的(c)部分所示,主要包括:图卷积网络(ImageCNN)、基于注意力机制的长短记忆模型(Attention-basedLSTM,ALSTM)。首先,内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;然后,将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,寻找文本与图像之间的关联,获得试题的联合语义表示向量。1)ImageCNN。如图2左上方所示,对于试题q的图像数据EI,使用一个拥有五层卷积网络和最大值池化层(maxpooling)的lmageCNN(ImCNN)来获取每个图像的本文档来自技高网...

【技术保护点】
1.一种基于知识结构的相似试题识别方法,其特征在于,包括:/n获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;/n构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。/n

【技术特征摘要】
1.一种基于知识结构的相似试题识别方法,其特征在于,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。


2.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,内容信息包括:试题文本以及相应的图像;
对于试题文本,利用正则匹配删除无用符号后进行分词,再删除停止词和低频词;
对于各试题的图像,进行尺寸调节,使得所有试题的大小一致。


3.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,所述内容表示层包括:图卷积网络、基于注意力机制的长短记忆模型;
内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;
将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,获得试题的联合语义表示向量


4.根据权利要求3所述的一种基于知识结构的相似试题识别方法,其特征在于,联合表示向量与文本进行拼接公式为:



其中,wt为文本中的第t个分词,一个分词对应一个时刻;为图像的联合表示向量,通过下述方式得到:






其中,I表示试题q中图片的总数,αj为第j个图像的注意力权重;ht-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态;gj、gi分别表示第j个、第i个图像的特征向量;Wai表示待学习的参数,表示gj的转置。


5.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,所述结构融合层包括:CKA模块与树卷积网络;其中:
所述CKA模块中:先使用嵌入的方法将知识点向量进行降维,表示为:uc=kcW...

【专利技术属性】
技术研发人员:佟威刘淇陈恩红童世炜何理扬黄威
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1