System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种融合LATEX标签的知识点标注方法及其模型技术_技高网

一种融合LATEX标签的知识点标注方法及其模型技术

技术编号:40209452 阅读:7 留言:0更新日期:2024-02-02 22:19
本发明专利技术公开了一种融合LATEX标签的知识点标注方法及其模型,步骤如下:数据集构建,构建好的数据集中原始习题文本输入到句子编码器模块中,输出结果;将输出结果输入到学科知识融合模块中的计算结果分别为最终的语义表征;将最终的语义表征输入到门控筛选模块,其输出结果为原始习题文本在学科知识信息影响下最终被保留的信息;将输出结果输入到通过带有sigmoid函数的线性层,得到最终的分类概率向量,并将其通过阈值分类器从而转化为预测标签。本发明专利技术的有益效果是:引入两种更细化的学科知识,即LATEX标签概念和术语类型的信息,进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。

【技术实现步骤摘要】

本专利技术涉及多标签文本分类任务相关的领域,具体为一种融合latex标签的知识点标注方法及其模型。


技术介绍

1、自20世纪90年代末以来,随着互联网的发展和数字化信息的大量产生,研究者们就广泛探索文本分类相关的领域,从传统的单标签分类方法到多标签分类方法的研究。近年来,随着互联网教育规模的扩大和学生在线学习需求的增加,大数据技术在教育领域的应用变得越来越重要,同时习题在课程教学过程中也扮演着非常重要的角色。通过分析学生所做的习题来评估学生对知识点的掌握情况,但是如何准确地标注出习题所考察的知识点是优化题库构建和个性化学习的关键问题。

2、在数学学科领域,数学知识点是数学教学信息中的基本组织单元和传递单元,用于描述和表达数学学科的核心概念和要点。习题知识点标注任务旨在标注出习题中考察的核心概念和要点。由于习题中考察的核心概念和要点不唯一,因此习题知识点标注任务可视为多标签文本分类任务。然而,习题知识标注任务存在样本分布失衡、标签层次化、领域受限等问题。更关键的是数学学科知识具有的特殊性使模型无法深层的理解习题文本的语义。例如,习题具有符号化、公式化、逻辑复杂化以及表达精炼化等特殊性,这些都是研究习题知识点标注任务的难点问题。

3、习题知识点自动标注任务中的知识点标签类数较多,且通过对抽样数据的统计,大部分习题实例只包含1到3个知识点,这样标签空间就会较为稀疏。而这类标注稀疏的问题会导致现有模型在训练实例较少的知识点上的标注效果较差,模型性能难以提升。

4、现有传统的知识点标注方法大多采用结合统计学与机器学习算法的方式,后来有许多工作基于向量空间模型(vector space model,vsm)生成空间向量,并通过计算文本相似度实现了对各自领域文本的知识点标注。但以上方法只基于浅层的特征,未考虑文本的上下文信息,并且过分依赖于语料库,通用性不强。因此后续有研究者提出基于词向量表示的深度学习方法。但此类方法中的词向量表示是静态的,并且对于新加入的训练习题无法有效地学习其上下文表示。随着bert(是一种基于注意力机制的深度学习模型)的出世,解决了上述词向量表征问题,越来越多工作采取嵌入预训练框架的形式提升各自领域模型的性能。

5、虽然直接嵌入预训练框架的方式在词汇和语义表达上的能力很强,但是对各自领域中特有先验知识的语义编码效果不佳,在数学学科领域更是如此。因此后续有工作利用预训练模型的同时结合数学文本的特殊性,如融入数学符号、公式、习题解析等先验知识,最后在习题知识点标注任务上的表现更进一步。然而这些模型在融合先验知识时,直接用其词向量表示和原始习题文本表示进行级联(concatenate),最后将级联结果送入分类器,这种显式的融合实际上会引入一些噪声干扰习题原来的语义表示。而且一些通过领域知识对原始习题文本事先进行题目清洗和替换以获取习题中间表示的知识点标注方法,同样也存在原始习题文本完整的语义表示受到破环的问题,导致模型分类时有效信息的特征缺失。


技术实现思路

1、为了解决上述问题,本专利技术提出一种融合latex标签的知识点标注方法及其模型,考虑到数学学科知识的表示具有公式化、表达精炼化等特殊性,引入两种更细化的学科知识,即latex标签概念和术语类型的信息,进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。

2、本专利技术的技术方案:一种融合latex标签的知识点标注方法,方法步骤如下:

3、步骤s1,数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集,习题数据集中的习题称为原始习题文本w;

4、步骤s2,将步骤s1中构建好的原始习题文本w、以及原始习题文本w中的latex标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原始习题文本表示e、latex标签概念表示elc和术语类型表示ett;

5、步骤s3,将步骤s2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制将latex标签概念表示elc和术语类型表示ett分别与原始习题文本表示e进行融合,输出结果为latex标签概念的深层语义表示mlc和术语类型的深层语义表示mtt;将学科知识融合模块中进行平均池化操作后的计算结果分别作为latex标签概念与术语类型最终的语义表征,即latex标签概念的池化表示与术语类型的池化表示;

6、步骤s4,将步骤s3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在latex标签概念信息的影响和术语类型信息的影响下最终被保留的信息,简称为最终保留的信息ecls-remain2;

7、步骤s5,将步骤s4中门控筛选模块输出的最终保留的信息 ecls-remain2作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签。

8、进一步的,步骤s1中数据集构建,具体为:

9、步骤s11,从800份初中数学试卷中收集16226道习题, 收集的习题覆盖初中数学涉及的所有知识点,共有四种题型包括选择题、填空题、解答题和判断题;

10、步骤s12,对收集的习题进行预处理,首先对习题进行去无效字符、去重、补全清洗操作,得到14200道习题;然后采用数学公式识别工具将以图片形式存在的公式识别成word支持的公式格式;

11、步骤s13,预处理之后对习题的知识点采用自动化的方式进行标注,标注的习题的知识点来源于两个方面,一方面在线教育平台的查询结果和另一方面借鉴初中人教版数学教材构建好的知识点分级标准;

12、步骤s14,经过习题预处理和知识点标注,最后得到包含12073道习题的数据集。

13、进一步的,步骤s13中对习题的知识点标注,具体为:

14、步骤s131,借助在线教育平台的习题查询功能找到习题对应的多个三级知识点;

15、步骤s132,通过查询知识点分级标准中与习题对应的一、二、三级知识点;

16、步骤s133,以在线教育平台所获的三级知识点为主,对从知识点分级标准中查询的三级知识点进行筛除,并从中查询三级知识点所属的一级和二级知识点;

17、步骤s134,借助莱文斯坦相似度算法和语义相似度模型对所有习题的知识点标注结果进行两两之间的相似性判断,对相似度大的标注结果进行统一,确保所标注的知识点不冗余;

18、步骤s135,根据初中数学教育专家提供的中考考纲,去除中考中不考察的知识点及对应习题。

19、进一步的,步骤s2中句子编码器模块,具体为:

20、步骤s21,句子编码器模块选取robert本文档来自技高网...

【技术保护点】

1.一种融合LATEX标签的知识点标注方法,其特征在于:方法步骤如下:

2.根据权利要求1所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S1中数据集构建,具体为:

3.根据权利要求2所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S13中对习题的知识点标注,具体为:

4.根据权利要求3所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S2中句子编码器模块,具体为:

5.根据权利要求4所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S3中学科知识融合模块,具体为:

6.根据权利要求5所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S4中门控筛选模块,具体为:

7.根据权利要求6所述的一种融合LATEX标签的知识点标注方法,其特征在于:步骤S5中预测模块,具体步骤为:

8.一种融合LATEX标签的知识点自动标注模型,应用于权利要求7所述的融合LATEX标签的知识点标注方法,其特征在于:主要分为句子编码器模块、学科知识融合模块、门控筛选模块、预测模块四个模块,句子编码器模块作为知识点自动标注模型的第一个模块,四个模块依次呈串行结构。

...

【技术特征摘要】

1.一种融合latex标签的知识点标注方法,其特征在于:方法步骤如下:

2.根据权利要求1所述的一种融合latex标签的知识点标注方法,其特征在于:步骤s1中数据集构建,具体为:

3.根据权利要求2所述的一种融合latex标签的知识点标注方法,其特征在于:步骤s13中对习题的知识点标注,具体为:

4.根据权利要求3所述的一种融合latex标签的知识点标注方法,其特征在于:步骤s2中句子编码器模块,具体为:

5.根据权利要求4所述的一种融合latex标签的知识点标注方法,其特征在于:步骤s3中学科...

【专利技术属性】
技术研发人员:罗文兵王岚清陶聪梁佳美黄琪罗凯威王明文
申请(专利权)人:江西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1