System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中医大模型偏好对齐方法、设备及介质技术_技高网

一种中医大模型偏好对齐方法、设备及介质技术

技术编号:41650182 阅读:16 留言:0更新日期:2024-06-13 02:40
本发明专利技术公开一种中医大模型偏好对齐方法、设备及介质,涉及自然语言处理技术领域。该方法包括:构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型;构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型;根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型;根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化后的中医大模型。本发明专利技术能够实现中医大模型的个性化偏好对齐,使模型能够生成与人类偏好更为一致的回答。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是涉及一种中医大模型偏好对齐方法、设备及介质


技术介绍

1、随着中医现代化进程的推进和自然语言处理技术的快速发展,开发能够理解和应用中医知识的语言模型成为了研究热点。但中医理论体系独特,还包含大量的专业术语和哲学思想等知识,对于以数据驱动的中医大模型来说,准确理解和应用这些知识无疑是一项严峻挑战。因此,中医大模型的偏好对齐问题变得尤为关键。

2、偏好对齐的核心目标是使机器学习模型输出结果与人类偏好一致,对于中医大模型来说,这意味着模型在做中医问答任务时生成的结果应该符合中医理论和临床实践的标准。一些学者尝试采用监督学习的方法来实现这一点,他们通过大量中医标注数据来训练模型,使得模型能够学习到人类偏好的模式,但是这种方法需要使用大量标注数据,而标注数据的获取成本比较高,且这些数据中可能包含不准确的中医知识或者与中医实践不符的信息,导致模型在学习过程中可能吸收错误的偏好。此外,一些学者尝试采用基于规则的方法来给模型做偏好对齐,他们通过将医疗专家知识或规则编码到模型中,以确保模型输出符合特定的偏好,但这种方法难以捕捉到复制或模糊的偏好,而且可扩展性差、主观性强,无法满足不同用户的个性化需求。还有学者尝试使用强化学习来解决这个问题,他们通过将中医大模型与环境交互来获得反馈,进而调整模型的输出以符合医生的偏好,但这种偏好对齐方法往往缺乏有效的反馈机制,而且通过这种方法对齐后的模型在特定医生或特定场景下表现良好时,其泛化能力可能受到限制,这意味着模型可能难以在其他医生或不同中医场景下保持同样的性能。


技术实现思路

1、本专利技术的目的是提供一种中医大模型偏好对齐方法、设备及介质,以实现中医大模型的个性化偏好对齐,使最终优化后的中医大模型可以根据用户输入的问题序列生成符合中医理论和临床实践的标准的答案序列。

2、为实现上述目的,本专利技术提供了如下方案:

3、一种中医大模型偏好对齐方法,包括:

4、构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型;

5、构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型;

6、根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型;

7、根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化后的中医大模型;所述最终优化后的中医大模型用于根据用户输入的问题序列生成符合中医理论和临床实践的标准的答案序列。

8、可选地,构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型,具体包括:

9、获取中医医疗知识数据,构建标准化语料库;所述标准化语料库中包括若干个序列,每个所述序列中包括若干个汉字;

10、定义第一损失函数;所述第一损失函数表示通过模型预测下一个汉字的负对数似然损失;

11、采用梯度下降算法最小化所述第一损失函数,更新所述第一预训练语言模型的可训练参数,得到预训练的中医大模型;

12、从所述标准化语料库中按照问答场景抽取问题序列和对应的答案序列并合并为组合序列;

13、定义第二损失函数;所述第二损失函数将最大化组合序列的概率问题转化为最小化问题;

14、采用梯度下降算法最小化所述第二损失函数,更新所述预训练的中医大模型的可训练参数,得到初步对齐的中医大模型。

15、可选地,构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型,具体包括:

16、从所述标准化语料库中按照问答场景抽取问题序列和对应的答案序列;

17、针对每个问题序列,采用若干个不同的医疗大模型分别生成不同的答案序列,并结合标准答案序列和抽取的对应的答案序列,按照匹配程度排序生成偏序对;

18、将第二预训练语言模型输出文本的嵌入层替换为输出标量的投影层,得到替换后的第二预训练语言模型;

19、采用所述替换后的第二预训练语言模型对每个问题序列的所有答案序列进行赋分,得到分数序列;

20、定义第三损失函数;所述第三损失函数用于使高质量答案序列与低质量答案序列的分数差异更大;

21、以最小化所述第三损失函数为目标,反向传播更新所述替换后的第二预训练语言模型的可训练参数,得到训练好的奖励模型。

22、可选地,根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型,具体包括:

23、从所述标准化语料库中按照问答场景抽取问题序列,构成问题数据集;

24、基于有监督微调策略,采用所述初步对齐的中医大模型对所述问题数据集中的每个问题序列进行token采样,得到对应的响应序列;

25、将所述问题数据集中的每个问题序列与对应的响应序列拼接组合,得到拼接序列;

26、基于奖励优化偏好策略,根据所述拼接序列,采用所述训练好的奖励模型计算奖励得分,采用强化学习中的广义优势函数gae计算优势得分,组合并进行归一化和剪切处理,得到优化的奖励评分;

27、在所述奖励优化偏好策略与所述有监督微调策略之间引入kl散度的均方误差作为惩罚项,以控制所述奖励优化偏好策略与所述有监督微调策略的差异大小;

28、定义第一马尔科夫决策过程形成第一强化学习轨迹;所述第一马尔科夫决策过程的状态空间表示输入的问题序列,动作空间表示对应的响应序列,奖励函数表示奖励模型优化后的评分策略;所述第一强化学习轨迹包括在不同时间步上输入的问题序列、对应的响应序列和奖励评分;

29、根据所述优化后的奖励评分和所述惩罚项,计算所述第一强化学习轨迹的总回报;

30、以最大化总回报为目标训练所述初步对齐的中医大模型,得到经过偏好对齐后的中医大模型。

31、可选地,根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化后的中医大模型,具体包括:

32、构建模糊神经网络;所述模糊神经网络包括输入层、模糊层、推理层和输出层;所述输入层用于输入评估文本和评估指标的权重;所述评估文本包括输入的问题序列和对应的响应序列;所述模糊层用于对所述评估文本进行处理得到评估指标的隶属度函数;所述推理层用于划分模糊规则的等级,并根据评估指标的隶属度函数计算模糊规则的激发密度;所述输出层用于根据模糊规则的激发密度和评估指标的权重计算偏好对齐质量评估结果;

33、获取用户的反馈信息;所述反馈信息包括:输入的问题序列、对应的响应序列和反馈内容;

34、采用所述模糊神经网络对所述反馈信息中的输入的问题序列和对应的响应序列进行评估,得到偏好本文档来自技高网...

【技术保护点】

1.一种中医大模型偏好对齐方法,其特征在于,包括:

2.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型,具体包括:

3.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型,具体包括:

4.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型,具体包括:

5.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化后的中医大模型,具体包括:

6.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,所述第一预训练语言模型为Qwen-14B模型;所述第二预训练语言模型为Qwen-7B模型。

7.根据权利要求4所述的中医大模型偏好对齐方法,其特征在于,所述总回报的计算公式为:

8.根据权利要求5所述的中医大模型偏好对齐方法,其特征在于,所述平均期望累积折扣奖励的计算公式为:

9.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1-8中任一项所述的中医大模型偏好对齐方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的中医大模型偏好对齐方法的步骤。

...

【技术特征摘要】

1.一种中医大模型偏好对齐方法,其特征在于,包括:

2.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型,具体包括:

3.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型,具体包括:

4.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型,具体包括:

5.根据权利要求1所述的中医大模型偏好对齐方法,其特征在于,根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化...

【专利技术属性】
技术研发人员:张明川柴龙飞朱军龙吴庆涛王琳刘牧华李美雯冯嘉美葛又铭夏丽晔尚智伟李涛
申请(专利权)人:河南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1