一种大语言模型知识点自动标注方法和系统技术方案

技术编号：44151389 阅读：21 留言：0更新日期：2025-01-29 10:24

本发明专利技术提供一种大语言模型知识点自动标注方法和系统，包括：获取待识别题干内容，进行预处理，遍历知识树生成选项式问句供大语言模型进行选择。所述大语言模型采用问句式三层遍历法对知识树进行遍历，并给出标注知识点。本发明专利技术提供利用大语言模型对知识点自动标注方法，在对知识树进行遍历时，最多只遍历三层，在遍历到第二层后，直接跳到知识树的叶子节点，不仅遍历速度快，还可避免出现遍历层数越多，出错概率越高的情况，同时，还形成选项式问句供大语言模型进行选择，便于大语言模型进行理解、分析和选择，提高标注速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种大语言模型知识点自动标注方法。

技术介绍

1、在中小教学过程中，题库的建设越来越被教育机构所重视，题库数据是教学过程中的数据基础，教学过程离不开题库数据的支撑，但是题库建设是一个投入大、周期长的工作，特别是对题库中的试题进行知识点标注，更是一个大难题，目前业内主要是通过人工进行标注，这给题库建设带来了巨大人工成本，而且还非常低效，当然，市面上也存在一些借助机器学习模型进行知识点标注的系统，然而，这些系统普遍存在标注速度慢和准确度低的问题。

技术实现思路

1、本专利技术实施例提供一种大语言模型知识点自动标注方法，解决现有的题干知识点标注速度慢效率低的问题。

2、第一方面，提供一种大语言模型知识点自动标注方法,请参阅图1，包括：

3、获取待识别题干内容，为提高识别正确率，同时以减少模型计算的复杂度，对所述进行预处理，并将预处理后的题干内容通过大语言模型选择知识点。

4、所述大语言模型采用问句式三层遍历法对知识树进行遍历，并给出标注知识点，包括：

5、步骤a：将知识树第一层的知识点与预处理后的题干内容结合，并形成选项式问句，所述大语言模型选择问句中所列的知识点；

6、步骤b：根据步骤a所得到的知识点，将该知识点在知识树中对应到的第二层的知识点与预处理后的题干内容结合，并形成选项式问句，所述大语言模型选择知识点，并给出中层知识点；

7、步骤c：所述中层知识点对应的所有叶子层知识点形成第三层，并进行分组

8、若汇总给出的标注知识点数量大于1，则对汇总给出的标注知识点进行组织并与预处理后的题干内容结合，再次形成选项式问句，由所述大语言模型最后选择知识点，并给出最符合题干内容的标注知识点。

9、本专利技术提供利用大语言模型进行知识点自动标注方法，在对知识树进行遍历时，最多只遍历三层，在遍历到第二层后，直接跳到知识树的叶子节点，不仅遍历速度快，还可避免出现遍历层数越多，出错概率越高的情况，同时，将所述大语言模型与选项式问句结合，便于大语言模型进行理解、分析和选择，提高标注速度；另外，本专利技术将中层知识点对应的所有叶子层知识点进行分组，以形成多次选项分析和选择，提高给出的标注知识点的准确率，最后，当因为分组给出的标注知识点多于1时，可将给出的标注知识点组织并最后识别一次，从而可对多个预先识别出来的知识点进行再次识别，最后给出更加符合待识别题干内容的标注知识点。

10、优选的，所述预处理是指将与解题无关和大语言模型无法处理的干扰内容去掉，并用半角空格代替被去掉的所述干扰内容，且当多个半角空格相连时，只留下一个半角空格。所述干扰内容包括题号、标点符号、答题位置标记符、图像和题目头尾的空格。

11、优选的，所述问句的格式为：“请阅读并理解该”+学科名称+“题目，选择属于该题目的知识点，知识点可以是多个，题目内容是：” + 题目内容 + “从如下这些知识点中选择一个或多个知识点，只输出知识点的编号，不需要输出其他内容，需要选择的知识点有：” +带编号的知识点选项，本专利技术通过只输出选项编号，即在提示词中约定大语言模型只输出选项序号，可减少大语言模型的token输出，以提高大语言模型判断效率。

12、优选的，所述分组时，划分为n组，且所述所有叶子层知识点中，左右相邻的知识点划分到不同的组内，从而可将相邻的非常近似的知识点划分到不同的组，并在每个组内进行独立的分析和选择，从而可对多个较为近似的知识点形成更多次的分析和选择，给出更“深思熟虑”的标注知识点，提高正确率。

13、优选的，所述分组时，采用相同步长跳跃选取知识点进行分组，每组中的叶子层知识点最多八个，划分的组数 = 取整（叶子层知识点数 / 8 + 0.5）。

14、优选的，所述第一层、第二层或者第三层的各项知识点用字母“a~z”的序号来表示，并在最后一项设置“无法确定”项。

15、优选的，为获取可靠的大语言模型，需收集训练样本，训练大语言模型的样本数据生成步骤包括：

16、抽取样本题干内容和知识点，对所述样本题干内容进行预处理；

17、采用回溯方法生成知识点生成路径；

18、将所述知识点生成路径与预处理后的题干内容进行结合，并以所述问句式三层遍历法的顺序形成“问句+答案”的样本数据。

19、优选的，所述样本数据生成步骤中，对知识树进行遍历时，结合题干内容和知识树相应层的所有知识点，形成样本问句，并按json格式生成样本数据，所述json格式为：

20、 {

21、“instruction”:“问句内容”

22、“output”:“答案”

23、}。

24、第二方面，提供一种知识点自动标注系统，包括：

25、数据采集模块，用于获取待识别题干内容。

26、数据处理模块，用于对待识别题干内容进行预处理，并采用问句式三层遍历法对知识树进行遍历，并给出标注知识点，实现第一方面所述的大语言模型知识点自动标注方法。

27、第三方面，提出一种知识点自动标注设备，包括：存储器、处理器。所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面所述的大语言模型知识点自动标注方法。

28、第四方面，专利技术实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的大语言模型知识点自动标注方法。

29、在本专利技术实施例中，给出了一种大语言模型知识点自动标注方法、系统和应用，具有以下有益效果：

30、1、本专利技术提供过的大语言模型知识点自动标注方法，在对知识树进行遍历时，最多只遍历三层，在遍历到第二层后，直接跳到知识树的叶子节点，从而避免出现遍历层数越多，出错概率越高的情况；

31、2、本专利技术将中层知识点对应的所有叶子层知识点进行分组，以形成多次选项分析和选择，提高给出的标注知识点的准确率；

32、3、当因为分组给出的标注知识点多于1时，可将给出的标注知识点组织并最后识别一次，从而可对多个预先得到的知识点进行再选择，进而给出最后选择，让最后给出的标注知识点更加符合待识别题干内容；

33、4、对知识树进行遍历时，形成问句形式，便于大语言模型进行理解、分析和选择，提高标注速度；

34、5、识别到知识点后，大语言模型只输出选项序号，可减少大语言模型的token输出，以提高大语言模型判断效率；

35、6、所述分组时，左右相邻的知识点划分到不同的组内，从而可将相邻的非常近似的知识点划分到不同的组，并在每个组内进行独立的分析和选择，从而可对多个较为近似的知识点形成更多本文档来自技高网...

【技术保护点】

1.一种大语言模型知识点自动标注方法，其特征在于，包括：

2.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述预处理是指将与解题无关和大语言模型无法处理的干扰内容去掉，并用半角空格代替被去掉的所述干扰内容，且当多个半角空格相连时，只留下一个半角空格；所述干扰内容包括题号、标点符号、答题位置标记符、图像和题目头尾的空格。

3.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述问句的格式为：“请阅读并理解该”+学科名称+“题目，选择属于该题目的知识点，知识点可以是多个，题目内容是：” + 题目内容 + “从如下这些知识点中选择一个或多个知识点，只输出知识点的编号，不需要输出其他内容，需要选择的知识点有：” + 带编号的知识点选项。

4.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述分组时，划分为N组，且所述所有叶子层知识点中，左右相邻的知识点划分到不同的组内。

5.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述分组时，采用相同步长跳跃选取知识点进行

6.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述第一层、第二层或者第三层的各项知识点用字母“A~Z”的序号来表示，并在最后一项设置“无法确定”项。

7.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述大语言模型通过样本数据训练。

8.根据权利要求7所述的一种大语言模型知识点自动标注方法，其特征在于，训练所述大语言模型的样本数据生成步骤包括：

9.根据权利要求8所述的一种大语言模型知识点自动标注方法，其特征在于，所述样本数据生成步骤中，对知识树进行遍历时，结合题干内容和知识树相应层的所有知识点，形成样本问句，并按JSON格式生成样本数据，所述JSON格式为：

10.一种知识点自动标注系统，其特征在于，包括：

...

【技术特征摘要】

1.一种大语言模型知识点自动标注方法，其特征在于，包括：

4.根据权利要求1所述的一种大语言模型知识点自动标注方法，其特征在于，所述分组时，划分为n组，且所述所有叶子层知识点中，左右相邻的知识点划分到不同的组内。

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员：陈德忠，黄阿信，
申请(专利权)人：厦门达宸信教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人