一种基于异构图的预训练问题表征方法、系统、设备及介质技术方案

技术编号:37991522 阅读:9 留言:0更新日期:2023-06-30 10:05
一种基于异构图的预训练问题表征方法、系统、设备及介质,其方法为:用异构图G表示整个教辅系统间的关系;定义输入层的输入信息及输入信息的处理方法;利用异构图G中存在的不同关系进行约束建模;预测层使用属性特征与顶点特征,利用PNN网络进行建模,预测问题的静态难度值;损失联合优化,得到预训练问题的表征;其系统、设备及介质能够基于所述方法对异构图的预训练问题进行表征;本发明专利技术能充分利用教辅系统中的各种异构信息,学习得到包含丰富信息的问题表征,方便的应用于下游知识追踪模型,同时具备全面性和灵活性。时具备全面性和灵活性。时具备全面性和灵活性。

【技术实现步骤摘要】
一种基于异构图的预训练问题表征方法、系统、设备及介质


[0001]本专利技术属于教育数据挖掘
,尤其涉及一种基于异构图的预训练问题表征方法。

技术介绍

[0002]知识追踪是教育数据挖掘领域的重要研究方向,它的主要目标是利用学生与教辅系统的交互数据等,建模出学生随时间动态变化的知识状态,来衡量学生的知识掌握水平,进而方便提供个性化的指导。随着深度学习的发展,深度知识追踪模型因为良好的性能,逐渐取代了传统模型。
[0003]深度知识追踪的一个主要任务是根据学生在之前回答过的问题上的表现,追踪学生当前的知识状态,以预测学生下次回答问题正确的概率。然而目前的深度知识追踪模型大多数不区分问题和知识点,往往直接利用问题对应的知识点去表示问题。这样做的原因是问题数量过多,每个用户平均交互的问题数量很少,这种稀疏性导致直接使用问题的one

hot编码去表征问题会使得模型过拟合,性能下降,相对而言知识点的数量远远小于问题的数量,因此采用知识点的one

hot编码去表征问题往往能取得更好的性能。但是,这种表征方法无法处理包含多知识点的问题,而且无法区分拥有相同知识点的问题,这种表征方式带来的信息丢失都会导致深度追踪模型无法达到最佳性能。
[0004]针对上述问题,有的方法采用问题的文本嵌入去表征问题,以解决问题缺乏知识点、难度属性等标注的问题。有的方法利用对于同一学生而言,属于同一知识点的多个问题回答正确概率应该没有显著差异的前提,在损失函数中设计正则化项,解决数据稀疏带来的过拟合问题。有的方法采用图神经网络建模问题

知识点二部图去获取问题、知识点的嵌入,利用图神经网络邻域聚合的能力,采取端对端的方式,去提取问题

知识点间的高阶关系,使得问题嵌入包含更多信息。有的方法直接对学生

问题交互,采用矩阵分解预训练获取学生和问题的隐向量,然后将问题隐向量输入知识追踪模型。
[0005]上述的现有方法,虽然基于问题进行知识追踪,但灵活性和全面性还不够。具体来说,存在两个问题。首先,现有方法通常在训练过程中学习问题嵌入,其中问题嵌入学习与知识追踪模型深度结合,端到端的训练,使得学习到的问题嵌入仅适用于该知识追踪模型,而无法在其它模型上推广;其次,除了灵活性之外,这些方法大多基于问题和知识点之间的相关性来表示问题,忽略了学生

问题

知识点交互中包含的丰富关系信息,存在信息利用不足的问题。
[0006]专利申请CN202110276011.2提出了一种基于协同嵌入增强问题表示的知识追踪方法及系统,使用学生

问题二部图与问题

知识点二部图捕获问题间的协同信息,并采用node2vec算法将协同信息中蕴含的问题相似性编码到问题嵌入中。该专利技术仅利用了学生答题数据及问题包含知识点数据去构建学生

问题二部图与问题

知识点二部图,并未考虑潜在的习题

习题关系、知识点

知识点关系,建模不够充分,且忽略了对问题嵌入至关重要的难度相关特征,利用信息不足。

技术实现思路

[0007]针对现有知识追踪领域问题表征包含信息不够全面、不能灵活的适配下游模型的问题,本专利技术的目的在于提出了一种基于异构图的预训练问题表征方法(Pre

training Question Embeddings via Heterogeneous Graph),用于提高知识追踪模型的性能,该方法充分考虑了学生

问题

技能以及问题

属性等信息,使得问题表征所包含的信息更加丰富,而且基于预训练可以很好的解决知识追踪领域数据稀疏所带来的过拟合问题,并且可以适用于下游的知识追踪模型。
[0008]为了实现上述目的,本专利技术采用如下技术方案:
[0009]一种基于异构图的预训练问题表征方法,通过抽象出整个教辅系统中存在的顶点与边,构建出教辅系统的异构图包含学生顶点V
s
、问题顶点V
q
、知识点顶点V
c
;学生

问题边E
sq
、学生

知识点边E
sc
、问题

知识点边E
qc
;以及属性F;对于顶点,只考虑问题顶点V
q
的嵌入q
i
以及知识点顶点V
c
的嵌入c
j
,问题q
i
与知识点c
j
间存在显式的包含关系E
qc
,问题与问题间、知识点与知识点间存在隐式关系;从共现角度和回答一致性角度挖掘隐式关系,基于边E
qc
、E
sq
抽取出问题与问题间的隐式关系,基于边E
qc
、E
sc
抽取出知识点与知识点间的隐式关系,并将显式关系、隐式关系利用损失函数建模成约束信息,然后更新q
i
、c
i
;最后将q
i
、c
i
与属性F中与问题难度相关的特征结合,利用PNN(Product

based Neural Network)网络对问题的难度建模,损失函数联合优化,实现基于异构图的预训练问题表征方法(PEHG)。
[0010]一种基于异构图的预训练问题表征方法,具体包括以下步骤:
[0011]步骤1.用异构图G表示整个教辅系统间的关系;
[0012]步骤2.定义输入层的输入信息及输入信息的处理方法;
[0013]步骤3.利用异构图G中存在的不同关系进行约束建模;
[0014]步骤4.预测层使用属性特征与顶点特征,利用PNN网络进行建模,预测问题的静态难度值;
[0015]步骤5.损失联合优化,得到预训练问题的表征。
[0016]进一步的,所述步骤1的具体方法为:
[0017]G={G
sq
,G
qc
,G
sc
,G
qf
},
[0018]G
sq
、G
qc
、G
sc
、G
qf
为异构图G中的子图,
[0019]其中,G
sq
表示问题

学生二部图,G
qc
表示问题

知识点二部图,G
sc
表示学生

知识点二部图,G
qf
表示问题属性图;
[0020]G
sq
=(S,Q,R
sq
),G
qc
=(Q,C,R
qc
...

【技术保护点】

【技术特征摘要】
1.一种基于异构图的预训练问题表征方法,其特征在于,通过抽象出整个教辅系统中存在的顶点与边,构建出教辅系统的异构图包含学生顶点V
s
、问题顶点V
q
、知识点顶点V
c
;学生

问题边E
sq
、学生

知识点边E
sc
、问题

知识点边E
qc
;以及属性F;对于顶点,只考虑问题顶点V
q
的嵌入q
i
以及知识点顶点V
c
的嵌入c
j
,问题q
i
与知识点c
j
间存在显式的包含关系E
qc
,问题与问题间、知识点与知识点间存在隐式关系;从共现角度和回答一致性角度挖掘隐式关系,基于边E
qc
、E
sq
抽取出问题与问题间的隐式关系,基于边E
qc
、E
sc
抽取出知识点与知识点间的隐式关系,并将显式关系、隐式关系利用损失函数建模成约束信息,然后更新q
i
、c
i
;最后将q
i
、c
i
与属性F中与问题难度相关的特征结合,利用PNN(Product

based Neural Network)网络对问题的难度建模,损失函数联合优化,实现基于异构图的预训练问题表征方法(PEHG)。2.一种基于异构图的预训练问题表征方法,其特征在于,具体包括以下步骤:步骤1.用异构图G表示整个教辅系统间的关系;步骤2.定义输入层的输入信息及输入信息的处理方法;步骤3.利用异构图G中存在的不同关系进行约束建模;步骤4.预测层使用属性特征与顶点特征,利用PNN网络进行建模,预测问题的静态难度值;步骤5.损失联合优化,得到预训练问题的表征。3.根据权利要求2所述的一种基于异构图的预训练问题表征方法,其特征在于,所述步骤1的具体方法为:G={G
sq
,G
qc
,G
S
,G
qf
},G
sq
、G
qc
、F
sc
、G
qf
为异构图G中的子图,其中,G
sq
表示问题

学生二部图,G
qc
表示问题

知识点二部图,G
sc
表示学生

知识点二部图,G
qf
表示问题属性图;G
sq
=(S,Q,R
sq
),G
qc
=(Q,C,R
qc
),G
sc
=(S,C,R
sc
),G
qf
=(Q,F);其中,Q={q1,q2,

,q
M
}表示问题集合,M表示问题个数,S={s1,s2,

,s
N
}表示学生集合,N表示学生人数,C={c1,c2,

,c
K
}表示知识点集合,K表示知识点数目,F={f1,f2,

,f
P
}表示与问题难度相关的属性集合,P表示属性特征个数;R
sq
表示学生与问题间的关系集合,R
sc
表示学生与知识点间的关系集合,R
qc
表示问题与知识点间的关系集合;其中,表示在学生问题交互记录t中学生s
i
回答对问题q
j
,反之则表示回答错误;其中,表示在学生知识点交互记录t中学生s
i
回答对包含知识点c
j
的问题,反之则表示回答错误;
其中,表示问题q
i
包含知识点c
j
,反之则不包含。4.根据权利要求2所述的一种基于异构图的预训练问题表征方法,其特征在于,所述步骤2的具体方法为:输入层包含三部分,问题顶点嵌入q
i
、知识点顶点嵌入c
j
、问题难度相关属性特征f
i
;其中,q
i
是通过问题的one

hot向量X
q
乘上可训练矩阵Q进行初始化,并在预训练阶段进行更新,即学习从单热编码到连续特征的线性映射,q
i
可以看作是矩阵W
Q
的第i行;X
q
∈{0,1}
M
、、d表示嵌入维度;同理,其中c
j
是通过知识点的one

hot向量X
c
乘上可训练矩阵W
C
进行初始化,并在预训练阶段进行更新,c
j
可以看成是矩阵W
C
的第j;X
c
∈{0,1}
K
、d表示嵌入维度;f
i
=[f
i1
;f
i2


;f
iP
],表示将该问题的多个与难度相关特征进行拼接操作,如果特征是离散特征的话用one

hot表示,如果是连续特征的话则用数值表示。5.根据权利要求2所述的一种基于异构图的预训练问题表征方法,其特征在于,所述步骤3的具体方法为:基于异构图G中存在的显式关系问题

知识点、隐式关系问题

问题、隐式关系知识点

知识点来约束知识点顶点嵌入和问题顶点嵌入的更新,具体的约束建模方法如下:3.1)显式关系问题

知识点约束建模考虑问题

知识点二部图G
qc
,问题顶点V
q
、知识点顶点V
c
间存在明确的边E
qc
,问题顶点嵌入q
i
与知识点顶点嵌入c
j
在嵌入空间里存在局部相似性,将这种相似性进行度量,具体相似度可用内积表示:其中σ(x)=1/(1+e

x
)表示sigmoid函数,将关系值转化为概率;通过交叉熵损失函数强制相似度接近于二部图G
qc
中的问题

知识点关系R
qc
:3.2)隐式关系问题

问题约束建模挖掘出问题与问题...

【专利技术属性】
技术研发人员:饶毓权义宁黄纾学孙鹏岗宋建锋苗启广
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1