System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器学习 ,尤其涉及一种大语言模型自我评价方法、装置、电子设备及存储介质。
技术介绍
1、近些年来,大语言模型逐渐走进大众视野,其通常是指参数数量在数十亿级或更多数量级的深度学习模型,在广泛而非单一的任务中有着出色的表现,功能十分强大。
2、然而,现有的大语言模型通常依赖于预设的参数和固定结构,缺乏自主学习和自我提升的能力。虽然可以通过不断收集新的数据和调整训练参数来改进模型性能,但这种方法耗时费力,也难以全面提升模型的泛化能力。
3、为了解决上述问题,研究者们试图赋予大语言模型自我评价的能力,一种方法是模仿传统的对话方式,让大语言模型自行判断其推理结果或回答的准确性,并根据其评价进行自我修正,这种方法被认为可以帮助大语言模型更高效地学习和提升自身性能。
4、然而,大语言模型的自我评价并非绝对准确。由于其自身存在局限性,大语言模型可能存在错误的判断,如果完全依赖于其自我评价进行优化,可能会带来不可预知的风险。例如,若大语言模型的自我评价和自我修正形成了一种封闭的反馈循环,而没有外部监督或校正,那么这种循环可能会导致大语言模型逐渐偏离最优解,进入一个局部最优甚至是一个无效的解决方案区域。
5、因此,解决现有大语言模型自我评价的准确度不高,导致模型性能不佳的问题,显得十分必要。
技术实现思路
1、本专利技术提供一种大语言模型自我评价方法、装置、电子设备及存储介质,用以克服现有大语言模型自我评价的准确度不高,导致模型性能不佳的
2、一方面,本专利技术提供一种大语言模型自我评价方法,包括:获取目标输入,所述目标输入包括待解答问题及其对应的回答结果;基于预先训练的大语言模型,根据所述目标输入,预测得到自我评价结果;其中,所述大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,所述正样本和负样本均包括问题、答案和质量标签。
3、进一步地,训练优化所述大语言模型,包括:根据所述训练样本集中的正样本和负样本,训练优化所述判别器;基于训练收敛的判别器,根据采集的新样本,训练优化所述生成器;其中,训练收敛的生成器为所述预先训练的大语言模型。
4、进一步地,根据所述训练样本集中的正样本和负样本,训练优化所述判别器,包括:在每一次训练时,将正样本或负样本中的问题和答案输入至判别器,对应得到正样本或负样本的质量评价;以正样本或负样本的质量评价与对应质量标签之间的差异作为训练损失,对判别器进行迭代优化,得到训练收敛的判别器。
5、进一步地,所述基于训练收敛的判别器,根据采集的新样本,训练优化所述生成器,包括:将新样本中的问题和答案输入至训练收敛的判别器中,得到所述新样本的置信概率;根据所述新样本的置信概率,确定所述新样本的样本类别,样本类别包括正样本和负样本;保留样本类别为正样本的新样本,并以所保留新样本中的问题为模型输入,以预测回答为模型输出,以预测回答和所保留新样本中答案之间的差异作为训练损失,迭代优化所述生成器。
6、进一步地,训练优化所述生成器,之后包括:获取所述生成器生成的测试问题、测试答案;将测试问题及其对应的测试答案作为负样本,结合训练样本集中未用到的正样本,对所述判别器进行微调;基于微调后的判别器,根据新样本对生成器进行微调,得到最终的生成器;其中,最终的生成器为所述预先训练的大语言模型。
7、进一步地,所述将新样本中的问题和答案输入至训练至收敛的判别器中,得到所述新样本的置信概率,包括:抽取设定词汇对应的logits值,并应用softmax函数,得到设定词汇对应的置信概率;其中,所述设定词汇的置信概率为所述新样本的置信概率;相应的,根据所述新样本的置信概率,确定所述新样本的样本类别,包括:在所述设定词汇的置信概率大于等于设定概率的情况下,将所述新样本确定为正样本;在所述设定词汇的置信概率小于设定概率的情况下,将所述新样本确定为负样本。
8、进一步地,所述正样本通过专家手动标注得到,所述负样本通过大语言模型自身生成得到。
9、第二方面,本专利技术还提供一种大语言模型自我评价装置,包括:目标输入获取模块,用于获取目标输入,所述目标输入包括待解答问题及其对应的回答结果;模型自我评价模块,用于基于预先训练的大语言模型,根据所述目标输入,预测得到自我评价结果;其中,所述大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,所述正样本和负样本均包括问题、答案和质量标签。
10、第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的大语言模型自我评价方法。
11、第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的大语言模型自我评价方法。
12、本专利技术提供的大语言模型自我评价方法,通过获取目标输入,目标输入包括待解答问题及其对应的回答结果,并基于预先训练的大语言模型,根据目标输入,预测得到自我评价结果;其中,大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,正样本和负样本均包括问题、答案和质量标签。该方法通过基于判别器和生成器根据正样本和负样本对大语言模型进行有监督训练,能够有效提升大语言模型的自我评价准确度,进而充分利用已有数据实现大语言模型的自我进化,提升大语言模型的推理能力和泛化能力。
本文档来自技高网...【技术保护点】
1.一种大语言模型自我评价方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型自我评价方法,其特征在于,训练优化所述大语言模型,包括:
3.根据权利要求2所述的大语言模型自我评价方法,其特征在于,根据所述训练样本集中的正样本和负样本,训练优化所述判别器,包括:
4.根据权利要求2所述的大语言模型自我评价方法,其特征在于,所述基于训练收敛的判别器,根据采集的新样本,训练优化所述生成器,包括:
5.根据权利要求2所述的大语言模型自我评价方法,其特征在于,训练优化所述生成器,之后包括:
6.根据权利要求4所述的大语言模型自我评价方法,其特征在于,所述将新样本中的问题和答案输入至训练至收敛的判别器中,得到所述新样本的置信概率,包括:
7.根据权利要求1-6中任一项所述的大语言模型自我评价方法,其特征在于,所述正样本通过专家手动标注得到,所述负样本通过大语言模型自身生成得到。
8.一种大语言模型自我评价装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的大语言模型自我评价方法。
...【技术特征摘要】
1.一种大语言模型自我评价方法,其特征在于,包括:
2.根据权利要求1所述的大语言模型自我评价方法,其特征在于,训练优化所述大语言模型,包括:
3.根据权利要求2所述的大语言模型自我评价方法,其特征在于,根据所述训练样本集中的正样本和负样本,训练优化所述判别器,包括:
4.根据权利要求2所述的大语言模型自我评价方法,其特征在于,所述基于训练收敛的判别器,根据采集的新样本,训练优化所述生成器,包括:
5.根据权利要求2所述的大语言模型自我评价方法,其特征在于,训练优化所述生成器,之后包括:
6.根据权利要求4所述的大语言模型自我评价方法,其特征在于,所述将新样本中的问题和答案输入至训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。