System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 评阅模型训练方法、评阅方法和装置制造方法及图纸_技高网

评阅模型训练方法、评阅方法和装置制造方法及图纸

技术编号:45030744 阅读:2 留言:0更新日期:2025-04-18 17:10
本发明专利技术提供一种评阅模型训练方法、评阅方法和装置,其中方法包括:根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型;根据第二样本数据集中的第二样本数据和各第二样本数据对应的评分标签和评语标签,对第一语言模型进行有监督训练,得到第二语言模型;根据第三样本数据集中的第三样本数据和各第三样本数据对应的评分标签,对第二语言模型进行强化学习训练,得到评阅模型;第一样本数据集中的样本数据数量和第三样本数据集中的样本数据数量均大于第二样本数据集中的样本数据数量。本发明专利技术实现通过少量评语标签即可有效训练出具备较高评阅质量的评阅模型,有效降低了标注成本,同时提高了评阅的质量。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种评阅模型训练方法、评阅方法和装置


技术介绍

1、基于大型语言模型对学员作答信息进行智能评阅,能辅助学员学习、帮助教师批改诊断学员的作业等,从而减轻教师的教学压力、提高评阅效率、缓解教育资源分配不均。因此,如何高效便捷地进行智能评阅是目前亟待研究的重要课题。

2、相关技术中,通常需要采用大量的高质量的评语标签和高质量评分标签对大型语言模型进行微调训练才能得到具备高评阅质量的评阅模型,进而才能保障评阅的质量。

3、但是由于标注人员的专业能力不一,标注难度高,且标注时间成本和经济成本,导致高质量的评语标签匮乏,因此难以训练得到具备高评阅质量的评阅模型,从而限制了评阅的质量。


技术实现思路

1、本专利技术提供一种评阅模型训练方法、评阅方法和装置,用以解决现有技术中在高质量的评语标签匮乏时,评阅质量难以保障的缺陷,实现在高质量的评语标签匮乏时,提升评阅的质量。

2、本专利技术提供一种评阅模型训练方法,包括:

3、根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型;

4、根据第二样本数据集中的第二样本数据和各所述第二样本数据对应的评分标签和评语标签,对所述第一语言模型进行有监督训练,得到第二语言模型;

5、根据第三样本数据集中的第三样本数据和各所述第三样本数据对应的评分标签,对所述第二语言模型进行强化学习训练,得到评阅模型;

6、其中,所述第一样本数据集中的样本数据数量和所述第三样本数据集中的样本数据数量均大于所述第二样本数据集中的样本数据数量。

7、根据本专利技术提供的一种评阅模型训练方法,所述根据第三样本数据集中的第三样本数据和各所述第三样本数据对应的评分标签,对所述第二语言模型进行强化学习训练,得到评阅模型,包括:

8、将各所述第三样本数据输入至所述第二语言模型,得到所述第二语言模型输出的各所述第三样本数据对应的评阅数据集;

9、计算各所述第三样本数据对应的评阅数据集中各评阅数据的评分预测数据与各所述第三样本数据对应的评分标签之间的差值,确定各所述第三样本数据对应的正评阅数据和负评阅数据;

10、根据各所述第三样本数据,以及各所述第三样本数据对应的正评阅数据和负评阅数据,对所述第二语言模型进行强化学习训练,得到所述评阅模型。

11、根据本专利技术提供的一种评阅模型训练方法,所述根据各所述第三样本数据,以及各所述第三样本数据对应的正评阅数据和负评阅数据,对所述第二语言模型进行强化学习训练,得到所述评阅模型,包括:

12、对于当前轮训练,将各所述第三样本数据输入至上一轮训练后的待训练语言模型,得到各所述第三样本数据对应的预测评阅数据属于所述正评阅数据的第一概率和所述预测评阅数据属于所述负评阅数据的第二概率;

13、将各所述第三样本数据输入至所述第二语言模型,得到所述预测评阅数据属于所述正评阅数据的第三概率和所述预测评阅数据属于所述负评阅数据的第四概率;

14、根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,构建目标损失函数;

15、基于所述目标损失函数,对所述上一轮训练后的待训练语言模型进行迭代训练,得到当前轮训练后的待训练语言模型;

16、根据每一轮训练后的待训练语言模型,构建所述评阅模型。

17、根据本专利技术提供的一种评阅模型训练方法,所述根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,构建目标损失函数,包括:

18、根据所述第一概率和所述第三概率,计算第一差异值;

19、根据所述第二概率和所述第四概率,计算第二差异值;

20、根据所述第一差异值和所述第二差异值,构建所述目标损失函数;

21、其中,所述第一差异值是所述上一轮训练后的待训练语言模型与所述第二语言模型在所述正评阅数据上的预测差异值,所述第二差异值是所述上一轮训练后的待训练语言模型与所述第二语言模型在所述负评阅数据上的预测差异值。

22、根据本专利技术提供的一种评阅模型训练方法,所述根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型,包括:

23、将各所述第一样本数据划分为多个样本数据单元序列,并在所述第一样本数据集中,获取各所述样本数据单元序列对应的下一样本数据单元;

24、将各所述样本数据单元序列输入至所述大型语言模型,得到各所述样本数据单元序列对应的下一预测数据单元属于所述下一样本数据单元的第一对数似然概率;

25、以最大化所述第一样本数据集中所有所述样本数据单元序列对应的第一对数似然概率之和为目标,对所述大型语言模型进行无监督训练,得到所述第一语言模型。

26、根据本专利技术提供的一种评阅模型训练方法,所述根据第二样本数据集中的第二样本数据和各所述第二样本数据对应的评分标签和评语标签,对所述第一语言模型进行有监督训练,得到第二语言模型,包括:

27、将各所述第二样本数据输入至所述第一语言模型,得到各所述第二样本数据对应的评分预测数据属于各所述第二样本数据对应的评分标签的第二对数似然概率和各所述第二样本数据对应的评语预测数据属于各所述第二样本数据对应的评语标签的第三对数似然概率;

28、以最大化所述第二样本数据集中所有第二样本数据对应的第二对数似然概率和第三对数似然概率之和为目标,对所述第一语言模型进行有监督训练,得到所述第二语言模型。

29、根据本专利技术提供的一种评阅模型训练方法,所述第一样本数据、所述第二样本数据和所述第三样本数据中的每一样本数据均包括样本题目数据、样本作答数据和样本答案数据。

30、本专利技术还提供一种评阅方法,包括:

31、获取待评阅数据,所述待评阅数据包括目标题目数据、目标作答数据和目标答案数据;

32、将所述待评阅数据输入至评阅模型,得到所述待评阅数据对应的评分预测数据和评语预测数据;

33、其中,所述评阅模型是基于如上述任一项所述评阅模型训练方法训练得到的。

34、本本专利技术还提供一种评阅模型训练装置,包括:

35、第一训练单元,用于根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型;

36、第二训练单元,用于根据第二样本数据集中的第二样本数据和各所述第二样本数据对应的评分标签和评语标签,对所述第一语言模型进行有监督训练,得到第二语言模型;

37、第三训练单元,用于根据第三样本数据集中的第三样本数据和各所述第三样本数据对应的评分标签,对所述第二语言模型进行强化学习训练,得到评阅模型;

38、其中,所述第一样本数据集中的样本数据数量和所述第三样本数据集中的样本数据数量均大于所述第二样本数据集中的样本数据数量。

39、本专利技术还提供本文档来自技高网...

【技术保护点】

1.一种评阅模型训练方法,其特征在于,包括:

2.根据权利要求1所述的评阅模型训练方法,其特征在于,所述根据第三样本数据集中的第三样本数据和各所述第三样本数据对应的评分标签,对所述第二语言模型进行强化学习训练,得到评阅模型,包括:

3.根据权利要求2所述的评阅模型训练方法,其特征在于,所述根据各所述第三样本数据,以及各所述第三样本数据对应的正评阅数据和负评阅数据,对所述第二语言模型进行强化学习训练,得到所述评阅模型,包括:

4.根据权利要求3所述的评阅模型训练方法,其特征在于,所述根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,构建目标损失函数,包括:

5.根据权利要求1-4任一项所述的评阅模型训练方法,其特征在于,所述根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型,包括:

6.根据权利要求1-4任一项所述的评阅模型训练方法,其特征在于,所述根据第二样本数据集中的第二样本数据和各所述第二样本数据对应的评分标签和评语标签,对所述第一语言模型进行有监督训练,得到第二语言模型,包括:

7.根据权利要求1-4任一项所述的评阅模型训练方法,其特征在于,所述第一样本数据、所述第二样本数据和所述第三样本数据中的每一样本数据均包括样本题目数据、样本作答数据和样本答案数据。

8.一种评阅方法,其特征在于,包括:

9.一种评阅模型训练装置,其特征在于,包括:

10.一种评阅装置,其特征在于,包括:

11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述评阅模型训练方法,或者如权利要求8所述评阅方法。

12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述评阅模型训练方法,或者如权利要求8所述评阅方法。

...

【技术特征摘要】

1.一种评阅模型训练方法,其特征在于,包括:

2.根据权利要求1所述的评阅模型训练方法,其特征在于,所述根据第三样本数据集中的第三样本数据和各所述第三样本数据对应的评分标签,对所述第二语言模型进行强化学习训练,得到评阅模型,包括:

3.根据权利要求2所述的评阅模型训练方法,其特征在于,所述根据各所述第三样本数据,以及各所述第三样本数据对应的正评阅数据和负评阅数据,对所述第二语言模型进行强化学习训练,得到所述评阅模型,包括:

4.根据权利要求3所述的评阅模型训练方法,其特征在于,所述根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,构建目标损失函数,包括:

5.根据权利要求1-4任一项所述的评阅模型训练方法,其特征在于,所述根据第一样本数据集中的第一样本数据,对大型语言模型进行无监督训练,得到第一语言模型,包括:

6.根据权利要求1-4任一项所述的评阅模型训练方法,其特征在于,所述根据第二样本数据集中的第二...

【专利技术属性】
技术研发人员:王士进朱焯铭盛志超王永康钟志成沙晶杜倩云刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1