一种基于异构图的预训练问题表征方法、系统、设备及介质技术方案

技术编号：37991522 阅读：9 留言：0更新日期：2023-06-30 10:05

一种基于异构图的预训练问题表征方法、系统、设备及介质，其方法为：用异构图G表示整个教辅系统间的关系；定义输入层的输入信息及输入信息的处理方法；利用异构图G中存在的不同关系进行约束建模；预测层使用属性特征与顶点特征，利用PNN网络进行建模，预测问题的静态难度值；损失联合优化，得到预训练问题的表征；其系统、设备及介质能够基于所述方法对异构图的预训练问题进行表征；本发明专利技术能充分利用教辅系统中的各种异构信息，学习得到包含丰富信息的问题表征，方便的应用于下游知识追踪模型，同时具备全面性和灵活性。时具备全面性和灵活性。时具备全面性和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于异构图的预训练问题表征方法、系统、设备及介质

[0001]本专利技术属于教育数据挖掘
，尤其涉及一种基于异构图的预训练问题表征方法。

技术介绍

[0002]知识追踪是教育数据挖掘领域的重要研究方向，它的主要目标是利用学生与教辅系统的交互数据等，建模出学生随时间动态变化的知识状态，来衡量学生的知识掌握水平，进而方便提供个性化的指导。随着深度学习的发展，深度知识追踪模型因为良好的性能，逐渐取代了传统模型。
[0003]深度知识追踪的一个主要任务是根据学生在之前回答过的问题上的表现，追踪学生当前的知识状态，以预测学生下次回答问题正确的概率。然而目前的深度知识追踪模型大多数不区分问题和知识点，往往直接利用问题对应的知识点去表示问题。这样做的原因是问题数量过多，每个用户平均交互的问题数量很少，这种稀疏性导致直接使用问题的one
‑
hot编码去表征问题会使得模型过拟合，性能下降，相对而言知识点的数量远远小于问题的数量，因此采用知识点的one
‑
hot编码去表征问题往往能取得更好的性能。但是，这种表征方法无法处理包含多知识点的问题，而且无法区分拥有相同知识点的问题，这种表征方式带来的信息丢失都会导致深度追踪模型无法达到最佳性能。
[0004]针对上述问题，有的方法采用问题的文本嵌入去表征问题，以解决问题缺乏知识点、难度属性等标注的问题。有的方法利用对于同一学生而言，属于同一知识点的多个问题回答正确概率应该没有显著差异的前提，在损失函数中设计正则化项，解决数据稀疏带来

【技术保护点】

【技术特征摘要】
1.一种基于异构图的预训练问题表征方法，其特征在于，通过抽象出整个教辅系统中存在的顶点与边，构建出教辅系统的异构图包含学生顶点V
s
、问题顶点V
q
、知识点顶点V
c
；学生
‑
问题边E
sq
、学生
‑
知识点边E
sc
、问题
‑
知识点边E
qc
；以及属性F；对于顶点，只考虑问题顶点V
q
的嵌入q
i
以及知识点顶点V
c
的嵌入c
j
，问题q
i
与知识点c
j
间存在显式的包含关系E
qc
，问题与问题间、知识点与知识点间存在隐式关系；从共现角度和回答一致性角度挖掘隐式关系，基于边E
qc
、E
sq
抽取出问题与问题间的隐式关系，基于边E
qc
、E
sc
抽取出知识点与知识点间的隐式关系，并将显式关系、隐式关系利用损失函数建模成约束信息，然后更新q
i
、c
i
；最后将q
i
、c
i
与属性F中与问题难度相关的特征结合，利用PNN(Product
‑
based Neural Network)网络对问题的难度建模，损失函数联合优化，实现基于异构图的预训练问题表征方法(PEHG)。2.一种基于异构图的预训练问题表征方法，其特征在于，具体包括以下步骤：步骤1.用异构图G表示整个教辅系统间的关系；步骤2.定义输入层的输入信息及输入信息的处理方法；步骤3.利用异构图G中存在的不同关系进行约束建模；步骤4.预测层使用属性特征与顶点特征，利用PNN网络进行建模，预测问题的静态难度值；步骤5.损失联合优化，得到预训练问题的表征。3.根据权利要求2所述的一种基于异构图的预训练问题表征方法，其特征在于，所述步骤1的具体方法为：G＝{G
sq
,G
qc
,G
S
,G
qf
}，G
sq
、G
qc
、F
sc
、G
qf
为异构图G中的子图,其中，G
sq
表示问题
‑
学生二部图，G
qc
表示问题
‑
知识点二部图,G
sc
表示学生
‑
知识点二部图，G
qf
表示问题属性图；G
sq
＝(S,Q,R
sq
)，G
qc
＝(Q,C,R
qc
)，G
sc
＝(S,C,R
sc
)，G
qf
＝(Q,F)；其中，Q＝{q1,q2,
…
,q
M
}表示问题集合，M表示问题个数，S＝{s1,s2,
…
,s
N
}表示学生集合，N表示学生人数，C＝{c1,c2,
…
,c
K
}表示知识点集合，K表示知识点数目，F＝{f1,f2,
…
,f
P
}表示与问题难度相关的属性集合，P表示属性特征个数；R
sq
表示学生与问题间的关系集合，R
sc
表示学生与知识点间的关系集合，R
qc
表示问题与知识点间的关系集合；其中，表示在学生问题交互记录t中学生s
i
回答对问题q
j
，反之则表示回答错误；其中，表示在学生知识点交互记录t中学生s
i
回答对包含知识点c
j
的问题，反之则表示回答错误；
其中，表示问题q
i
包含知识点c
j
，反之则不包含。4.根据权利要求2所述的一种基于异构图的预训练问题表征方法，其特征在于，所述步骤2的具体方法为：输入层包含三部分，问题顶点嵌入q
i
、知识点顶点嵌入c
j
、问题难度相关属性特征f
i
；其中，q
i
是通过问题的one
‑
hot向量X
q
乘上可训练矩阵Q进行初始化，并在预训练阶段进行更新，即学习从单热编码到连续特征的线性映射，q
i
可以看作是矩阵W
Q
的第i行；X
q
∈{0,1}
M
、、d表示嵌入维度；同理，其中c
j
是通过知识点的one
‑
hot向量X
c
乘上可训练矩阵W
C
进行初始化，并在预训练阶段进行更新，c
j
可以看成是矩阵W
C
的第j；X
c
∈{0,1}
K
、d表示嵌入维度；f
i
＝[f
i1
；f
i2
；
…
；f
iP
]，表示将该问题的多个与难度相关特征进行拼接操作，如果特征是离散特征的话用one
‑
hot表示，如果是连续特征的话则用数值表示。5.根据权利要求2所述的一种基于异构图的预训练问题表征方法，其特征在于，所述步骤3的具体方法为：基于异构图G中存在的显式关系问题
‑
知识点、隐式关系问题
‑
问题、隐式关系知识点
‑
知识点来约束知识点顶点嵌入和问题顶点嵌入的更新，具体的约束建模方法如下：3.1)显式关系问题
‑
知识点约束建模考虑问题
‑
知识点二部图G
qc
，问题顶点V
q
、知识点顶点V
c
间存在明确的边E
qc
，问题顶点嵌入q
i
与知识点顶点嵌入c
j
在嵌入空间里存在局部相似性，将这种相似性进行度量，具体相似度可用内积表示：其中σ(x)＝1/(1+e
‑
x
)表示sigmoid函数，将关系值转化为概率；通过交叉熵损失函数强制相似度接近于二部图G
qc
中的问题
‑
知识点关系R
qc
：3.2)隐式关系问题
‑
问题约束建模挖掘出问题与问题...

【专利技术属性】
技术研发人员：饶毓，权义宁，黄纾学，孙鹏岗，宋建锋，苗启广，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人