System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于小样本学习的执医考试辅导大模型精调方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>四川大学专利>正文

基于小样本学习的执医考试辅导大模型精调方法及系统技术方案

技术编号:43736163 阅读:3 留言:0更新日期:2024-12-20 12:59
本发明专利技术公开了一种基于小样本学习的执医考试辅导大模型精调方法及系统,精调方法包括采用聚类和词嵌入向量的注意力得分,选取5个词嵌入向量作为数据集对执医考试辅导大模型进行训练,存储训练过程中适配器的权重;根据权重的重要性指标和剪枝阈值,对适配器的权重进行剪枝操作,对剪枝前后的执医考试辅导大模型进行推理测试,得到剪枝前后的推理时间和测试得分;根据推理时间和测试得分,计算剪枝前后执医考试辅导大模型的准确率下降指标和加速性能指标;判断准确率下降指标和加速性能指标或者剪枝次数是否满足对应的预设条件,若是,得到精调后的执医考试辅导大模型,否则根据准确率下降指标和加速性能指标更新剪枝阈值,之后返回剪枝操作步骤。

【技术实现步骤摘要】

本专利技术涉及问答模型,具体涉及一种基于小样本学习的执医考试辅导大模型精调方法及系统


技术介绍

1、口腔执业医师考试,作为医学领域的一项重要考核,其目的在于全面、客观地评价申请口腔医师资格者是否真正具备从事口腔医学工作所必需的专业知识与技能。口腔执业医师考试涵盖了口腔医学的多个方面,包括口腔疾病的诊断、治疗、预防以及口腔颌面外科、口腔修复学、口腔正畸学等多个专业领域的知识。考生需要系统掌握这些专业知识,并能够熟练运用到临床实践中,为患者提供高质量的口腔医疗服务。

2、在口腔执业医师考试的笔试环节,共有600道选择题需要考生在两个半小时内完成做答。这些题目涵盖以下三方面内容:(1)口腔医学基础理论知识:包括口腔解剖学、口腔生理学、口腔病理学等基础知识。(2)口腔临床知识:包括口腔内科、口腔颌面外科、口腔修复科、口腔正畸科等临床科目的诊断和治疗知识。(3)医学综合知识:包括医学微生物学、医学免疫学、药理学、医学心理学、医学伦理学、卫生法规等。这些考试覆盖的科目多、跨度大知识点细碎,而且考试时间短,因而通过该项考试难度极大。

3、为了通过笔试环节,考生大多通过参加线下辅导班或者做大量习题以提高分数。但这种方式存在以下缺点,首先是参加线下辅导班或做大量习题需要考生投入大量的时间和精力。这种高强度的学习方式容易使考生感到疲惫,导致学习效率不高。其次,线下辅导班和习题集往往面向广大考生,内容设计较为宽泛,难以针对每个考生的具体情况进行个性化教学。因此,考生难免会花费大量时间在已掌握的内容上,而忽略了自己未掌握薄弱环节。

4、近年来,大语言模型在各个领域都展现出强大的潜力,特别是在教育领域,能够支持个性化教学模型已经初露端倪。具体来说,通过现有大模型训练技术容易通过大量口腔专业书籍资料作为输入数据,构建出一个具备口腔知识的大预言模型。但该模型并不能很好的回答试题内容。例如:让模型在四个选项中进行选择,模型会给出错误答案,但让它进一步分析试题时,它却能给出正确分析。即现有模型虽然具备口腔知识,却无法很好地应用这些知识实现辅导。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的基于小样本学习的执医考试辅导大模型精调方法及系统解决了现有具备口腔知识的大预言模型回答问题准确率低的问题。

2、为了达到上述专利技术目的,本专利技术采用的技术方案为:

3、第一方面,提供一种基于小样本学习的执医考试辅导大模型精调方法,其包括步骤:

4、s1、获取口腔知识考试试题,并采用词嵌入将考试试题转换为词嵌入向量;

5、s2、对词嵌入向量进行聚类,并计算每个词嵌入向量与聚类中心的注意力得分,选取注意力得分满足预设条件的词嵌入向量作为数据集;

6、s3、采用数据集对执医考试辅导大模型进行训练,并存储训练过程中适配器的权重,所述执医考试辅导大模型由嵌入适配器的transformer层组成;

7、s4、根据权重的重要性指标和剪枝阈值,对适配器的权重进行剪枝操作,之后对剪枝前后的执医考试辅导大模型进行推理测试,得到剪枝前后的推理时间和测试得分;

8、s5、根据剪枝前后的推理时间和测试得分,计算剪枝前后执医考试辅导大模型的准确率下降指标和加速性能指标;

9、s6、判断准确率下降指标和加速性能指标或者剪枝次数是否满足对应的预设条件,若是,得到精调后的执医考试辅导大模型,否则进入步骤s7;

10、s7、根据准确率下降指标和加速性能指标更新剪枝阈值,之后返回步骤s4。

11、进一步地,对适配器的权重进行剪枝操作的表达式为:

12、

13、

14、其中,ws为剪枝后的权重矩阵;m为稀疏矩阵;w为剪枝前的权重矩阵;m和n分别为适配器的权重矩阵的总行数和总列数;wde为适配器的权重矩阵中第d行e列的权重参数;wde_matic为wde的重要性指标;therholdinit为剪枝阈值;wd为适配器的权重矩阵中第d行的权重参数;wde_f为在第f个词嵌入向量时权重参数的值;f为数据集中词嵌入向量的总个数。

15、进一步地,计算准确率下降指标和加速性能指标的表达式为:

16、

17、

18、其中,为准确率下降指标;和分别为执医考试辅导大模型剪枝前和剪枝后的测试分数;和分别为执医考试辅导大模型剪枝前和剪枝后的推理时间;为加速性能指标。

19、进一步地,更新剪枝阈值的表达式为:

20、

21、其中,thersholdupdate和thersholdinit分别为更新后和更新前的剪枝阈值;a和b均为权重系数。

22、进一步地,所述transformer层包括依次连接的嵌入层、多头注意力、前馈层和适配器及依次连接的层归一化、2个前馈层、适配器和归一化层,所述嵌入层的输出和与其邻近的适配器的输出叠加后输入层归一化;所述适配器与隐藏层之间设置有dropout层;

23、所述适配器包括输入层和输出层,所述输入层和输出层之间设置有若干隐藏层,所述隐藏层通过若干线性变换和非线性激活函数将输入特征映射到高维度的表示空间,并产生最终的输出。

24、进一步地,多头注意力对嵌入层的输出进行处理的表达式为:

25、

26、其中,z为嵌入层的输出;wq、wk、wv、wo均为transformer层权重矩阵;dh为wk的维度;gm为掩码矩阵;softmax(.)为softmax函数;q为多头注意力的第q个头;t为转置;

27、前馈层对输入其的特征向量进行处理的表达式为:

28、fnn(o)=wdrelu(wuo)

29、其中,o为输入前馈层的特征向量;wuo为o通过线性变换得到的中间表示;wu为输入层到隐藏层的权重矩阵;relu为修正线性单元;fnn(o)为经过relu激活函数后的中间表示通过线性变换得到的最终输出;wd为隐藏层到输出层的权重矩阵;

30、层归一化对输入其的特征向量进行处理的表达式为:

31、

32、其中,layernorm(p)为层归一化的输出;p为输入层归一化的特征向量;μ和σ分别为p的均值和标准差;γ和β分别为可学习的缩放因子和偏置项;

33、适配器对输入其的特征向量进行处理的表达式为:

34、adapter(t)=dropout(w2·(relu(w1·t)))

35、其中,adapter(t)为适配器的输出;t为输入适配器的特征向量;w1和w2分别为适配器的两个线性变换的权重矩阵;dropout为dropout操作。

36、进一步地,采用数据集对执医考试辅导大模型进行训练前,需冻结transformer层中非适配器部分的权重信息,训练过程中仅更新适配器的权重。

37、进一步地,对词嵌入向量进行聚类的方法包括:

38本文档来自技高网...

【技术保护点】

1.基于小样本学习的执医考试辅导大模型精调方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,对适配器的权重进行剪枝操作的表达式为:

3.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,计算准确率下降指标和加速性能指标的表达式为:

4.根据权利要求3所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,更新剪枝阈值的表达式为:

5.根据权利要求1-4任一所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,所述Transformer层包括依次连接的嵌入层、多头注意力、前馈层和适配器及依次连接的层归一化、2个前馈层、适配器和归一化层,所述嵌入层的输出和与其邻近的适配器的输出叠加后输入层归一化;所述适配器与隐藏层之间设置有dropout层;

6.根据权利要求5所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,多头注意力对嵌入层的输出进行处理的表达式为:

7.根据权利要求1-4、6任一所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,采用数据集对执医考试辅导大模型进行训练前,需冻结Transformer层中非适配器部分的权重信息,训练过程中仅更新适配器的权重。

8.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,对词嵌入向量进行聚类的方法包括:

9.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,选取注意力得分满足预设条件的词嵌入向量作为数据集的方法包括:

10.一种基于小样本学习的执医考试辅导大模型精调系统,其特征在于,包括依次连接的词嵌入模块、口腔试题小样本抽取组件和轻量化模型微调组件,所述轻量化模型微调组件包括依次连接的大模型训练模块、剪枝及推理测试模块、指标计算模块、判断模块和阈值更新模块;

...

【技术特征摘要】

1.基于小样本学习的执医考试辅导大模型精调方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,对适配器的权重进行剪枝操作的表达式为:

3.根据权利要求1所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,计算准确率下降指标和加速性能指标的表达式为:

4.根据权利要求3所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,更新剪枝阈值的表达式为:

5.根据权利要求1-4任一所述的基于小样本学习的执医考试辅导大模型精调方法,其特征在于,所述transformer层包括依次连接的嵌入层、多头注意力、前馈层和适配器及依次连接的层归一化、2个前馈层、适配器和归一化层,所述嵌入层的输出和与其邻近的适配器的输出叠加后输入层归一化;所述适配器与隐藏层之间设置有dropout层;

6.根据权利要求5所述的基于小样本学习的执医考...

【专利技术属性】
技术研发人员:刘济远宋孝天孙亚楠范嘉豪黄艳卢奥军刘伟柯俊超刘畅
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1