System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书一个或多个实施例涉及医疗,尤其涉及一种医疗llm模型微调方法及相关设备。
技术介绍
1、大规模语言模型(large language models,llm),或者称之为预训练模型,是一种由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过在庞大且多样化的公开数据集上进行预训练,掌握了诸多语言现象。
2、进一步地,利用与特定应用场景相关的数据集对预训练完成的llm基础模型执行微调训练,可以得到用于执行与特定应用场景相关的多轮对话任务的llm服务模型。
3、然而,微调后的llm服务模型在执行多轮对话任务时经常存在逻辑混乱的问题,例如向用户重复提问相同的问题,又例如在没有获得充足信息的情况下就直接输出最终的推断,不仅给用户带来了非常糟糕的使用体验,也无法满足用户的实际使用需求,甚至错误的推断还可能会给用户带来严重的负面影响。
技术实现思路
1、有鉴于此,本说明书一个或多个实施例提供一种医疗llm模型微调方法及相关设备。
2、第一方面,本说明书提供了一种llm模型微调方法,所述方法包括:
3、获取与目标应用场景相关的数据集;所述数据集包括多个单轮问答样本,每个单轮问答样本包含问题文本和与所述问题文本对应的回答文本;
4、获取基于与所述目标应用场景相关的多轮对话任务的任务需求,构建的与所述多轮对话任务对应的多轮对话规则,并将所述单轮问答样本转换为符合所述多轮对话规则的多轮对话样本;
5、基于所
6、第二方面,本说明书提供了一种llm模型微调装置,所述装置包括:
7、问答数据获取单元,用于获取与目标应用场景相关的数据集;所述数据集包括多个单轮问答样本,每个单轮问答样本包含问题文本和与所述问题文本对应的回答文本;
8、多轮对话样本生成单元,用于获取基于与所述目标应用场景相关的多轮对话任务的任务需求,构建的与所述多轮对话任务对应的多轮对话规则,并将所述单轮问答样本转换为符合所述多轮对话规则的多轮对话样本;
9、微调单元,用于基于所述多轮对话样本对预训练完成的llm基础模型进一步执行微调训练,得到基于所述多轮对话规则执行所述多轮对话任务的llm服务模型。
10、相应地,本说明书还提供了一种计算设备,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序/指令;所述处理器运行所述计算机程序/指令时,执行上述第一方面所述的llm模型微调方法。
11、相应地,本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器运行时,执行如上述第一方面所述的llm模型微调方法。
12、相应地,本说明书还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时,执行如上述第一方面所述的llm模型微调方法。
13、综上所述,本申请在针对预训练完成的llm基础模型进行微调训练,以使其能够理想地执行与目标应用场景相关的多轮对话任务时,考虑到直接获取到的与该目标应用场景相关的数据集中包含的单轮问答样本往往都只由一个问题文本和对应的一个回答文本构成,若直接基于该单轮问答样本对llm基础模型进行微调,微调后的模型在执行多轮对话任务时容易出现逻辑混乱的情况,例如向用户重复提问相同的问题,又例如在没有得到充足信息的情况下就直接输出最终的推断,效果极差。基于此,本申请可以先将上述单轮问答样本转换为符合预设的多轮对话规则的多轮对话样本,再利用这些多轮对话样本对llm基础模型进行微调,以使模型可以学习到多轮对话规则,相应的,微调后的模型也会按照多轮对话规则来执行多轮对话任务,从而有逻辑地进行应答,提升模型性能,改善用户的使用体验。
本文档来自技高网...【技术保护点】
1.一种LLM模型微调方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述目标应用场景为医疗问诊场景,所述多轮对话规则包括医疗问诊规则,所述任务需求包括获得医疗诊断结果。
3.根据权利要求2所述的方法,其特征在于,所述医疗问诊规则包括医疗问诊顺序;其中,所述医疗问诊顺序包括依次进行的症状询问、检查结果询问、病史询问以及输出医疗诊断结果。
4.根据权利要求3所述的方法,其特征在于,所述医疗问诊规则还包括以下示出的至少一种询问规则:
5.根据权利要求2所述的方法,其特征在于,所述获取与目标应用场景相关的数据集,包括:
6.根据权利要求5所述的方法,其特征在于,所述将所述单轮问答样本转换为符合所述多轮对话规则的多轮对话样本,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述多轮对话样本对预训练完成的LLM基础模型进一步执行微调训练,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述多轮对话样本对预训练完成的LLM基础模型进行偏好微调,包括:
10.根据权利要求9所述的方法,其特征在于,所述将所述策略模型执行所述多轮对话任务所输出的对话文本作为负偏好样本,包括:
11.一种LLM模型微调装置,其特征在于,所述装置包括:
12.一种计算设备,其特征在于,包括:存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序/指令;所述处理器运行所述计算机程序/指令时,执行如权利要求1-10任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现如权利要求1-10任意一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如权利要求1-10任意一项所述的方法。
...【技术特征摘要】
1.一种llm模型微调方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述目标应用场景为医疗问诊场景,所述多轮对话规则包括医疗问诊规则,所述任务需求包括获得医疗诊断结果。
3.根据权利要求2所述的方法,其特征在于,所述医疗问诊规则包括医疗问诊顺序;其中,所述医疗问诊顺序包括依次进行的症状询问、检查结果询问、病史询问以及输出医疗诊断结果。
4.根据权利要求3所述的方法,其特征在于,所述医疗问诊规则还包括以下示出的至少一种询问规则:
5.根据权利要求2所述的方法,其特征在于,所述获取与目标应用场景相关的数据集,包括:
6.根据权利要求5所述的方法,其特征在于,所述将所述单轮问答样本转换为符合所述多轮对话规则的多轮对话样本,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述多轮对话样本对预训练完成的llm基础模型进一步执行微调训练,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述多轮对...
【专利技术属性】
技术研发人员:迟辰斐,杨晓燕,王潇寒,张宁豫,朱雨琦,申月,魏鹏,顾进杰,陈华钧,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。